在科技界的一次重大宣布中,OpenAI選擇在12天Shipmas活動的尾聲揭曉了其年度最重要的消息。這一震撼性公告并非突如其來,而是經(jīng)過精心策劃,于上周五正式揭曉。
OpenAI隆重推出了o3,這款模型被視為今年早些時候發(fā)布的o1推理模型的升級版。值得注意的是,o3并非單一模型,而是一個系列,其中包括o3和o3-mini兩個版本。后者是一個經(jīng)過精簡和特定任務微調(diào)的更小型模型。
OpenAI發(fā)表了一項驚人的聲明:o3在某些特定條件下,已接近實現(xiàn)通用人工智能(AGI)的水平。然而,這一聲明伴隨著重要的警示。關于這一點,后文將詳細展開。
關于模型編號的跳躍——從o1直接跳到o3——OpenAI首席執(zhí)行官Sam Altman在直播中透露,這是為了避免與英國電信巨頭O2發(fā)生潛在的商標糾紛。這無疑展示了商業(yè)世界中知識產(chǎn)權問題的復雜性。
目前,o3和o3-mini尚未全面推向市場。不過,安全研究人員從今天開始可以注冊預覽o3-mini,而o3的預覽版將在稍后發(fā)布,具體時間尚未確定。Altman透露,o3-mini計劃于1月底推出,隨后是o3的全面發(fā)布。然而,這與他近期的言論存在些許不一致。在本周的一次訪談中,Altman曾表示,在發(fā)布新的推理模型之前,他更希望建立一個聯(lián)邦測試框架,以指導對此類模型的監(jiān)控和風險降低。
風險確實存在。人工智能安全測試人員發(fā)現(xiàn),o1的推理能力使其比傳統(tǒng)非推理模型更容易欺騙人類用戶。與meta、Anthropic和Google的領先人工智能模型相比,o3欺騙人類的概率可能更高。這一風險將在OpenAI的紅隊合作伙伴發(fā)布測試結果后得到驗證。
為了應對這些風險,OpenAI表示正在采用一種新技術——審議性對齊,以確保o3等模型與其安全原則保持一致。這一技術同樣應用于o1模型。OpenAI在一項新研究中詳細闡述了其工作原理。
與大多數(shù)人工智能不同,o3等推理模型能夠自我核實事實,從而避免許多通常會困擾其他模型的陷阱。這一事實核查過程雖然會產(chǎn)生一定的延遲,但使得o3在物理、科學和數(shù)學等領域更加可靠。o3在做出反應之前,會通過OpenAI所稱的“私人思維鏈”進行思考。它能夠推理任務并提前規(guī)劃,執(zhí)行一系列操作以找到解決方案。
在實踐中,o3在接受提示后會暫停一下,考慮一系列相關提示,并解釋其推理過程。一段時間后,該模型會總結出它認為最準確的答案。與o1相比,o3的新特點是能夠“調(diào)整”推理時間,模型可以根據(jù)需要設置為低、中或高計算(即思考時間)模式。計算時間越高,o3在任務上的表現(xiàn)就越好。
關于AGI的問題,OpenAI是否正在接近這一目標成為了人們關注的焦點。AGI,即通用人工智能,指的是能夠執(zhí)行人類所能完成的任何任務的人工智能。OpenAI對AGI的定義是:在最具經(jīng)濟價值的工作上表現(xiàn)優(yōu)于人類的高度自主系統(tǒng)。實現(xiàn)AGI將是一個大膽的聲明,對OpenAI而言也具有合同意義。根據(jù)與微軟之間的協(xié)議條款,一旦OpenAI達到AGI水平,它將不再有義務向微軟提供其最先進的技術。
從一項基準來看,OpenAI正在逐漸接近AGI。在ARC-AGI基準測試中,o3在高計算設置下獲得了87.5%的分數(shù)。在最差的情況下(低計算設置),該模型的性能是o1的三倍。然而,高計算設置的成本極其高昂,每個挑戰(zhàn)的成本可能高達數(shù)千美元。ARC-AGI的聯(lián)合創(chuàng)始人Fran?ois Chollet指出,o3在一些非常簡單的任務上失敗了,這表明該模型與人類智能存在根本差異。
盡管如此,OpenAI在其他基準測試中表現(xiàn)優(yōu)異。在專注于編程任務的SWE-Bench Verified基準上,o3的表現(xiàn)比o1高出22.8個百分點,并在Codeforces評分中獲得了2727分(2400分以上的評分使工程師處于99.2百分位)。o3在2024年美國數(shù)學邀請賽上得分為96.7%,在GPQA Diamond基準上得分為87.7%,并在EpochAI的Frontier Math基準上創(chuàng)下了新紀錄,解決了25.2%的問題,而其他模型均未超過2%。
然而,這些說法需要謹慎對待,因為它們來自OpenAI的內(nèi)部評估。我們需要等待外部客戶和組織的基準測試來驗證該模型在未來的表現(xiàn)。
自OpenAI發(fā)布首批推理模型以來,包括谷歌在內(nèi)的競爭對手紛紛推出了大量推理模型。例如,由量化交易員資助的AI研究公司DeepSeek發(fā)布了其首款推理模型DeepSeek-R1的預覽版,而阿里巴巴的Qwen團隊也發(fā)布了據(jù)稱是o1的第一個“公開”挑戰(zhàn)者。
推理模型的興起,首先是出于對改進生成式人工智能新方法的追求。然而,并非所有人都認為推理模型是最佳的發(fā)展方向。這些模型往往價格昂貴,需要大量的計算能力來運行。盡管它們在基準測試中表現(xiàn)良好,但尚不清楚推理模型是否能保持這種進步速度。
值得注意的是,o3的發(fā)布正值OpenAI最杰出的科學家之一Alec Radford離職之際。Radford是OpenAI生成式AI模型GPT系列學術論文的主要作者,他宣布將離職從事獨立研究。