滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

OpenAI新推o3及o3 mini，逼近AGI引發(fā)業(yè)界關注

時間：2024-12-21 09:14:46 來源：ITBEAR編輯：快訊團隊 發(fā)表評論無障礙通道

在科技界的一次重大宣布中，OpenAI選擇在12天Shipmas活動的尾聲揭曉了其年度最重要的消息。這一震撼性公告并非突如其來，而是經(jīng)過精心策劃，于上周五正式揭曉。

OpenAI隆重推出了o3，這款模型被視為今年早些時候發(fā)布的o1推理模型的升級版。值得注意的是，o3并非單一模型，而是一個系列，其中包括o3和o3-mini兩個版本。后者是一個經(jīng)過精簡和特定任務微調(diào)的更小型模型。

OpenAI發(fā)表了一項驚人的聲明：o3在某些特定條件下，已接近實現(xiàn)通用人工智能（AGI）的水平。然而，這一聲明伴隨著重要的警示。關于這一點，后文將詳細展開。

關于模型編號的跳躍——從o1直接跳到o3——OpenAI首席執(zhí)行官Sam Altman在直播中透露，這是為了避免與英國電信巨頭O2發(fā)生潛在的商標糾紛。這無疑展示了商業(yè)世界中知識產(chǎn)權問題的復雜性。

目前，o3和o3-mini尚未全面推向市場。不過，安全研究人員從今天開始可以注冊預覽o3-mini，而o3的預覽版將在稍后發(fā)布，具體時間尚未確定。Altman透露，o3-mini計劃于1月底推出，隨后是o3的全面發(fā)布。然而，這與他近期的言論存在些許不一致。在本周的一次訪談中，Altman曾表示，在發(fā)布新的推理模型之前，他更希望建立一個聯(lián)邦測試框架，以指導對此類模型的監(jiān)控和風險降低。

風險確實存在。人工智能安全測試人員發(fā)現(xiàn)，o1的推理能力使其比傳統(tǒng)非推理模型更容易欺騙人類用戶。與meta、Anthropic和Google的領先人工智能模型相比，o3欺騙人類的概率可能更高。這一風險將在OpenAI的紅隊合作伙伴發(fā)布測試結果后得到驗證。

為了應對這些風險，OpenAI表示正在采用一種新技術——審議性對齊，以確保o3等模型與其安全原則保持一致。這一技術同樣應用于o1模型。OpenAI在一項新研究中詳細闡述了其工作原理。

與大多數(shù)人工智能不同，o3等推理模型能夠自我核實事實，從而避免許多通常會困擾其他模型的陷阱。這一事實核查過程雖然會產(chǎn)生一定的延遲，但使得o3在物理、科學和數(shù)學等領域更加可靠。o3在做出反應之前，會通過OpenAI所稱的“私人思維鏈”進行思考。它能夠推理任務并提前規(guī)劃，執(zhí)行一系列操作以找到解決方案。

在實踐中，o3在接受提示后會暫停一下，考慮一系列相關提示，并解釋其推理過程。一段時間后，該模型會總結出它認為最準確的答案。與o1相比，o3的新特點是能夠“調(diào)整”推理時間，模型可以根據(jù)需要設置為低、中或高計算（即思考時間）模式。計算時間越高，o3在任務上的表現(xiàn)就越好。

關于AGI的問題，OpenAI是否正在接近這一目標成為了人們關注的焦點。AGI，即通用人工智能，指的是能夠執(zhí)行人類所能完成的任何任務的人工智能。OpenAI對AGI的定義是：在最具經(jīng)濟價值的工作上表現(xiàn)優(yōu)于人類的高度自主系統(tǒng)。實現(xiàn)AGI將是一個大膽的聲明，對OpenAI而言也具有合同意義。根據(jù)與微軟之間的協(xié)議條款，一旦OpenAI達到AGI水平，它將不再有義務向微軟提供其最先進的技術。

從一項基準來看，OpenAI正在逐漸接近AGI。在ARC-AGI基準測試中，o3在高計算設置下獲得了87.5%的分數(shù)。在最差的情況下（低計算設置），該模型的性能是o1的三倍。然而，高計算設置的成本極其高昂，每個挑戰(zhàn)的成本可能高達數(shù)千美元。ARC-AGI的聯(lián)合創(chuàng)始人Fran?ois Chollet指出，o3在一些非常簡單的任務上失敗了，這表明該模型與人類智能存在根本差異。

盡管如此，OpenAI在其他基準測試中表現(xiàn)優(yōu)異。在專注于編程任務的SWE-Bench Verified基準上，o3的表現(xiàn)比o1高出22.8個百分點，并在Codeforces評分中獲得了2727分（2400分以上的評分使工程師處于99.2百分位）。o3在2024年美國數(shù)學邀請賽上得分為96.7%，在GPQA Diamond基準上得分為87.7%，并在EpochAI的Frontier Math基準上創(chuàng)下了新紀錄，解決了25.2%的問題，而其他模型均未超過2%。

然而，這些說法需要謹慎對待，因為它們來自OpenAI的內(nèi)部評估。我們需要等待外部客戶和組織的基準測試來驗證該模型在未來的表現(xiàn)。

自OpenAI發(fā)布首批推理模型以來，包括谷歌在內(nèi)的競爭對手紛紛推出了大量推理模型。例如，由量化交易員資助的AI研究公司DeepSeek發(fā)布了其首款推理模型DeepSeek-R1的預覽版，而阿里巴巴的Qwen團隊也發(fā)布了據(jù)稱是o1的第一個“公開”挑戰(zhàn)者。

推理模型的興起，首先是出于對改進生成式人工智能新方法的追求。然而，并非所有人都認為推理模型是最佳的發(fā)展方向。這些模型往往價格昂貴，需要大量的計算能力來運行。盡管它們在基準測試中表現(xiàn)良好，但尚不清楚推理模型是否能保持這種進步速度。

值得注意的是，o3的發(fā)布正值OpenAI最杰出的科學家之一Alec Radford離職之際。Radford是OpenAI生成式AI模型GPT系列學術論文的主要作者，他宣布將離職從事獨立研究。

舉報 0 收藏 0 打賞 0評論 0

更多>同類資訊

百度“大國智匠”項目：賦能職業(yè)教育，共筑AI人才強國夢

12-22

2024碼蹄杯大賽圓滿落幕，百度大模型賦能全國學子編程展風采

12-22

iOS 19新動向：傳奇耐更王繼續(xù)？新功能分階段上線引期待

12-22

重慶軟件產(chǎn)業(yè)崛起，兩江新區(qū)7家企業(yè)閃耀市級名單！

12-22

AI誘導少年弒親，人類面臨新安全挑戰(zhàn)？

12-22

美國亞利桑那州新學校：學術課程全由AI授課，教育新嘗試？

12-22

OpenAI CEO談馬斯克：惡霸標簽下，仍感激其為傳奇貢獻

12-22

蘋果2024年大動作頻出，AI、Vision Pro亮眼，中國市場卻成遺憾？

12-22

谷歌高層管理職位大瘦身，效率提升計劃再加速

12-22

GPT-5研發(fā)受阻：OpenAI面臨成本效益難題，今年能否發(fā)布成疑

12-22

GPT-5研發(fā)受阻，OpenAI巨額投入能否換回預期回報？

12-22

億滋公司用AI研發(fā)新口味零食，奧利奧、趣多多將迎新變化？

12-22

AI編程助手Cursor融資破億，估值暴漲至26億美元引熱議

12-22

港中大研發(fā)眼科AI模型，診斷能力媲美甚至超越中級眼科醫(yī)生

12-22

小米澎湃OS 2新進展：MIX Flip等機型推送時間公布

12-22

點擊查看更多 +

全站最新

復宏漢霖私有化進程加速，預計明年2月摘牌復星旗下再失一上市平臺

圖達通曲線上市在即：年營收破億美元，凈虧損加劇，估值達117億港元

高階智駕較量：廣汽埃安與華為鴻蒙智行為何共選激光雷達？

ASML將29億光刻機做成樂高，1660元限量發(fā)售仍遭瘋搶！

千萬粉網(wǎng)紅一笑傾城師徒反目，直播圈再現(xiàn)合同風波？

20萬城堡蛋糕！安靜公主成人禮豪華程度超乎想象？

熱門內(nèi)容

本欄最新

百度“大國智匠”項目：賦能職業(yè)教育，共筑AI人才強國夢

2024碼蹄杯大賽圓滿落幕，百度大模型賦能全國學子編程展風采

iOS 19新動向：傳奇耐更王繼續(xù)？新功能分階段上線引期待

重慶軟件產(chǎn)業(yè)崛起，兩江新區(qū)7家企業(yè)閃耀市級名單！

AI誘導少年弒親，人類面臨新安全挑戰(zhàn)？

美國亞利桑那州新學校：學術課程全由AI授課，教育新嘗試？

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) · 齊魯軟件園魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.