在農(nóng)歷新年之際,科技界的焦點(diǎn)并未因節(jié)日氛圍而黯淡,反而因一家杭州“小公司”DeepSeek的崛起而更加熾熱。DeepSeek以其創(chuàng)新的AI技術(shù),為整個(gè)行業(yè)帶來(lái)了新的活力和思考。
自DeepSeek-V3模型去年年底發(fā)布以來(lái),其性能便備受矚目。該模型在多項(xiàng)評(píng)測(cè)中超越了Qwen2.5-72B和Llama-3.1-405B等開源模型,與閉源模型GPT-4o和Claude-3.5-Sonnet不相上下。這一成就迅速吸引了業(yè)內(nèi)人士的廣泛關(guān)注,但DeepSeek的真正“出圈”還要等到其手機(jī)應(yīng)用上線前夕。
1月20日,DeepSeek再次發(fā)力,推出了推理模型DeepSeek-R1。該模型在性能上實(shí)現(xiàn)了對(duì)OpenAI-o1正式版的對(duì)標(biāo),并且DeepSeek大方地公開了DeepSeek-R1的訓(xùn)練技術(shù),同時(shí)開源了模型權(quán)重。對(duì)普通用戶而言,DeepSeek-R1更是直接在官網(wǎng)上免費(fèi)開放使用,這一舉措無(wú)疑為AI技術(shù)的普及和應(yīng)用注入了新的動(dòng)力。
DeepSeek-R1不僅性能卓越,而且使用靈活。它支持聯(lián)網(wǎng)搜索信息,增加了使用的便捷性。同時(shí),作為一款采用CoT思維鏈技術(shù)的推理模型,DeepSeek-R1能夠向用戶展示其思考過程,讓用戶直觀感受到大模型技術(shù)的實(shí)力。這一特點(diǎn)在海內(nèi)外全網(wǎng)引發(fā)了熱烈討論,DeepSeek也因此承受了巨大的訪問壓力和惡意攻擊。
DeepSeek的成功并非偶然。其兩大核心技術(shù)——MoE混合專家模型和RL強(qiáng)化學(xué)習(xí),為其帶來(lái)了顯著的成本優(yōu)勢(shì)和性能提升。MoE架構(gòu)通過將一個(gè)復(fù)雜問題分解成多個(gè)更小、更易于管理的子問題,并由不同的專家網(wǎng)絡(luò)分別處理,從而大大降低了推理成本。而RL強(qiáng)化學(xué)習(xí)則完全依賴環(huán)境反饋來(lái)優(yōu)化模型行為,使模型在訓(xùn)練中自主發(fā)展出自我驗(yàn)證、反思推理等復(fù)雜行為,達(dá)到ChatGPT o1級(jí)別的能力。
盡管DeepSeek-V3和DeepSeek-R1已經(jīng)足夠強(qiáng)大,但他們?nèi)匀恢皇恰按笳Z(yǔ)言模型”,不具備多模態(tài)能力。然而,DeepSeek并未止步于此。1月28日凌晨,DeepSeek開源了全新的視覺多模態(tài)模型Janus-Pro-7B。該模型通過將視覺編碼過程拆分為多個(gè)獨(dú)立的路徑,解決了以往框架中的局限性,同時(shí)仍采用單一的統(tǒng)一變換器架構(gòu)進(jìn)行處理。這一創(chuàng)新使Janus-Pro在Geneval和DPG-Bench基準(zhǔn)測(cè)試中擊敗了Stable Diffusion和OpenAI的DALL-E 3。
DeepSeek的崛起引起了AI大模型領(lǐng)域其他公司的關(guān)注。在DeepSeek-R1發(fā)布后不久,阿里通義團(tuán)隊(duì)便推出了Qwen2.5-Max模型。該模型使用超過20萬(wàn)億token的預(yù)訓(xùn)練數(shù)據(jù)及精心設(shè)計(jì)的后訓(xùn)練方案進(jìn)行訓(xùn)練,性能表現(xiàn)與業(yè)界領(lǐng)先的模型相當(dāng)。Qwen2.5-Max的發(fā)布不僅展示了阿里在AI技術(shù)上的實(shí)力,也反映了DeepSeek對(duì)行業(yè)的影響力和推動(dòng)力。
面對(duì)DeepSeek等競(jìng)爭(zhēng)對(duì)手的壓力,OpenAI的CEO阿爾特曼也表示將采取一系列措施來(lái)優(yōu)化成本和提升用戶體驗(yàn)。他透露,未來(lái)的ChatGPT o3-mini模型將開放給免費(fèi)用戶使用,Plus會(huì)員則每天有100條請(qǐng)求的額度。同時(shí),新的ChatGPT Operator功能也將盡快向Plus會(huì)員開放。