在人工智能領(lǐng)域的一次重大進(jìn)展中,字節(jié)旗下的豆包大模型在2024年末全面展示了其跨領(lǐng)域的技術(shù)飛躍。自今年5月首次亮相以來,短短七個(gè)月內(nèi),豆包大模型在通用語(yǔ)言處理、視頻生成、語(yǔ)音交互以及視覺理解等多個(gè)維度上,均取得了與國(guó)際頂尖技術(shù)并跑的成就。
最新版本的豆包通用模型——Doubao-pro-1215,其綜合能力相較于5月版本提升了32%,并已全面對(duì)標(biāo)GPT-4o。尤其在處理數(shù)學(xué)難題及專業(yè)知識(shí)等復(fù)雜任務(wù)時(shí),豆包模型的表現(xiàn)甚至更為出色。這一顯著進(jìn)步得益于團(tuán)隊(duì)在數(shù)據(jù)優(yōu)化、模型稀疏度提升、強(qiáng)化學(xué)習(xí)引入以及系統(tǒng)性工程優(yōu)化等方面的不懈努力。Doubao-Pro在保持高性能的同時(shí),實(shí)現(xiàn)了推理服務(wù)價(jià)格的大幅降低,僅為GPT-4o的八分之一。
在圖像與視頻處理領(lǐng)域,豆包大模型團(tuán)隊(duì)于9月推出了PixelDance與Seaweed兩款視頻生成模型,它們擅長(zhǎng)精準(zhǔn)理解復(fù)雜提示詞、保持鏡頭一致性、實(shí)現(xiàn)多交互主體靈活控制。同時(shí),豆包文生圖模型持續(xù)迭代,新增了通用圖像編輯功能,使得“一句話P圖”和“一鍵生成海報(bào)”成為可能。12月發(fā)布的Doubao-vision視覺理解模型,更是將視覺與語(yǔ)言深度結(jié)合,實(shí)現(xiàn)了多感官的思考與創(chuàng)作,其在十多個(gè)主流數(shù)據(jù)集上的表現(xiàn)與Gemini 2.0和GPT-4o相當(dāng)。
語(yǔ)音方面,豆包大模型團(tuán)隊(duì)推出了全新的語(yǔ)音識(shí)別模型Seed-ASR和語(yǔ)音生成基座模型Seed-TTS,通過引入多樣化數(shù)據(jù)、融合推理鏈,賦予了模型強(qiáng)大的泛化能力。豆包語(yǔ)音模型不僅能聽懂20種以上方言?shī)A雜的對(duì)話,還能在會(huì)話中表達(dá)情感,保留人類習(xí)慣,如吞音、口音等,且在交互中可隨時(shí)被打斷,實(shí)現(xiàn)了更加自然流暢的語(yǔ)音交互。
更進(jìn)一步的是,豆包大模型已具備高品質(zhì)的“唱作”能力,從詞曲編輯、演奏生成到人聲演唱,一個(gè)AI就能組成一個(gè)樂隊(duì)。這背后依托的是Seed-Music音樂生成模型框架,它結(jié)合了語(yǔ)言模型與擴(kuò)散模型的優(yōu)勢(shì),實(shí)現(xiàn)了音樂生成的通用框架,并提供了極高的編輯可控性。
豆包大模型團(tuán)隊(duì)還首次披露了其300萬字窗口的長(zhǎng)文本處理能力,能夠輕松閱讀上百篇學(xué)術(shù)報(bào)告,每百萬tokens的處理延遲僅需15秒,這一性能達(dá)到了業(yè)界的極限水平。這一成就得益于STRING等上下文關(guān)聯(lián)數(shù)據(jù)算法和模型加速優(yōu)化的支持,使得LLM能夠更有效地利用海量外部知識(shí),并通過稀疏化及分布式方案將時(shí)延降至十秒級(jí)。
在代碼能力方面,豆包代碼大模型Doubao-coder的編程能力達(dá)到了專業(yè)級(jí)水平,支持超過16種編程語(yǔ)言及11類真實(shí)應(yīng)用場(chǎng)景,滿足全棧編程開發(fā)需求,包括前后端開發(fā)、機(jī)器學(xué)習(xí)等。
豆包大模型團(tuán)隊(duì)在AI基礎(chǔ)研究方面也取得了顯著成果。過去幾個(gè)月里,團(tuán)隊(duì)有57篇論文入選ICLR、CVPR、NeurIPS等國(guó)際頂級(jí)會(huì)議,并發(fā)布了下載量超百萬的開源項(xiàng)目及GitHub上的熱門項(xiàng)目。同時(shí),團(tuán)隊(duì)與近20所高校建立了深入合作關(guān)系,支持了40多位頂尖學(xué)者參與關(guān)鍵AI技術(shù)的研發(fā),并與清華大學(xué)AIR、北京大學(xué)分別成立了聯(lián)合實(shí)驗(yàn)室。
為了儲(chǔ)備最具潛力的研究人才,豆包大模型團(tuán)隊(duì)啟動(dòng)了“Top Seed人才計(jì)劃”,在全球范圍內(nèi)招募頂尖博士畢業(yè)生加入,共同挑戰(zhàn)世界級(jí)AI課題。目前,豆包大模型的相關(guān)技術(shù)能力已支撐了包括豆包APP、即夢(mèng)、豆包MarsCode等在內(nèi)的50多個(gè)C端應(yīng)用場(chǎng)景,其中豆包APP已成為國(guó)內(nèi)備受歡迎的AI產(chǎn)品。通過火山引擎,豆包大模型還服務(wù)了30多個(gè)行業(yè),日均tokens調(diào)用量超過4萬億,較5月發(fā)布時(shí)增長(zhǎng)了33倍。