在人工智能界風起云涌之際,一家名為DeepSeek的中國初創(chuàng)公司憑借其開源人工智能模型R1,成功吸引了全球的目光。盡管ChatGPT的推出讓OpenAI的首席執(zhí)行官Sam Altman名聲大噪,但DeepSeek的創(chuàng)始人梁文峰在美國卻鮮有人知,直到R1模型的發(fā)布,才讓他在人工智能領域嶄露頭角。
DeepSeek發(fā)布的R1模型,在“數(shù)學、代碼和推理任務”上的表現(xiàn),據(jù)稱可與OpenAI的o1模型相媲美,但其使用的計算能力卻僅為后者的一小部分。這一成就不僅震驚了硅谷,也讓整個人工智能行業(yè)為之震動。那么,這位引領DeepSeek走向成功的領導者,究竟有著怎樣的背景和職業(yè)生涯呢?
梁文峰的成長故事始于中國廣東的一個五線城市,時間要追溯到1980年代。他的父親是一名平凡的小學教師,而文峰則憑借自己的努力,考入了中國歷史悠久、排名靠前的浙江大學,并在那里完成了本科和研究生的學業(yè)。中國電子商務的先驅、拼多多前首席執(zhí)行官黃崢也曾是該校的學子。
盡管文峰的職業(yè)生涯始于金融領域,但他對人工智能的熱愛卻從未減退。2015年,他與兩位浙江大學校友共同創(chuàng)立了量化對沖基金High-Flyer,該基金依靠數(shù)學和人工智能技術進行量化投資,并迅速嶄露頭角。據(jù)High-Flyer網(wǎng)站顯示,截至2019年,其管理的資產(chǎn)已至少達到100億美元。
然而,文峰并未滿足于此。在運營High-Flyer期間,他開始積極購買Nvidia的GPU,計劃構建一個龐大的芯片集群來訓練自己的人工智能模型。這一舉動在當時或許并不被人看好,但文峰卻堅信自己的選擇。2023年5月,他推出了DeepSeek,作為High-Flyer資助的人工智能實驗室的一個分支。
DeepSeek的V3模型在2024年年底引發(fā)了轟動。據(jù)DeepSeek研究人員估計,他們使用2000塊Nvidia H800芯片構建和訓練該模型的成本不到600萬美元,遠低于許多競爭對手。這一成就不僅展示了DeepSeek的技術實力,也為其贏得了業(yè)界的廣泛認可。
隨后,DeepSeek在2025年1月20日推出了R1模型,再次震驚了硅谷。這一模型的發(fā)布,不僅鞏固了DeepSeek在人工智能領域的地位,也讓更多人對這位低調的領導者產(chǎn)生了濃厚的興趣。
在談到DeepSeek的發(fā)展理念時,文峰表示,他的主要關注點是研究大型模型,實現(xiàn)通用人工智能。他強調,DeepSeek的原則是不虧本銷售,也不追求超額利潤,而是希望在成本之上獲得適度的利潤空間。同時,他還表示公司不會采用閉源技術,而是致力于建立強大的技術生態(tài)系統(tǒng)。
對于中國人工智能產(chǎn)業(yè)的發(fā)展,文峰充滿了期待。他認為,中國的人工智能不可能永遠只是個追隨者。盡管目前中國和美國在人工智能領域存在一定的差距,但真正的差距在于原創(chuàng)和模仿之間。如果這種情況不改變,中國將永遠無法超越美國。因此,他希望DeepSeek能夠成為改變這種狀況的先鋒。
在文峰的帶領下,DeepSeek正朝著實現(xiàn)通用人工智能的目標邁進。他們的努力和成就,不僅為中國人工智能產(chǎn)業(yè)的發(fā)展注入了新的活力,也為全球人工智能領域帶來了新的希望。