欧美大肚乱孕交hd孕妇_欧美成人女星排行榜_中文字幕五月欧美_日韩免费福利电影在线观看

您的位置:要聞 > 正文

每日消息!GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除

來源:第一財經 時間:2025-12-12 13:07:35

拉響“紅色警報”應對谷歌競爭后,當地時間12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此時距離OpenAI更新GPT-5.1只過去了一個月。

此次發布GPT-5.2,被外界視為OpenAI應對谷歌挑戰的一次反擊。上個月谷歌發布Gemini 3后,在硅谷掀起一場AI權力的重新分配,OpenAI作為大模型霸主的地位受到挑戰。


【資料圖】

不同于GPT-5.1著重強調具有“情緒價值”、能與人愉快交談,此次應對挑戰,OpenAI拿出了更多“真槍實彈”。GPT-5.2推出了更多智能上的更新,也放出了基準測試的分數。可以看到一些基準測試分數提升明顯。

例如,在知識型工作任務GDPval測試中,GPT-5.2Thinking的分數為70.9%,明顯超過GPT-5.1的38.8%,在抽象推理ARC-AGI-2基準測試中,GPT-5.2Thinking的分數為52.9%,明顯超過GPT-5.1的17.6%。另一些基準測試分數也有提升,在軟件工程SWE-Bench Pro、科學問題GPQA Diamond、科學圖表類問題CharXiv推理、數學競賽HMMT測試中,GPT-5.2Thinking的分數為55.6%、92.4%、88.7%、99.4%,GPT-5.1為50.8%、88.1%、80.3%、96.3%。

基于這些能力提升,OpenAI稱為專業知識型工作打造的GPT-5.2是公司至今最強的模型,“GPT-5.2在眾多基準測試中都刷新了行業水平,例如GDPval測試中,這款模型在涵蓋44個職業的明確知識型工作任務中表現超過了行業專家。”

谷歌發布的Gemini 3 Pro此前在基準測試榜單中“屠榜”,OpenAI此次在基準測試榜單中終于扳回一局。

據此前谷歌放出的數據,在ARC-AGI-2測試中,Gemini 3 Pro分數為31.1%,遠超GPT-5.1的17.6%,GPQA Diamond測試中,Gemini 3 Pro分數為91.9%,超過GPT-5.1的88.1%,這種明顯的能力提升當時引來業內人士預言“未來6個月內很難有公司能超越這一成績”。此次GPT-5.2在上述兩項基準測試中得分終于超過了Gemini 3 Pro。不過,記者留意到,當時谷歌放出的一些分數明顯超過OpenAI的基準測試,例如Humanitys Last Exam,此次GPT-5.2并未放出。

OpenAI此次也強調了新模型在專業工作中的可用性,稱基準測試得分體現了GPT-5.2在制作演示文稿、電子表格等方面的表現優于或與專業人士持平,生成的電子表格和幻燈片在復雜度和格式呈現上相比前一代有明顯提升。不過,用戶要使用新的電子表格和演示文稿功能,需要訂閱付費套餐。長上下文能力使新模型能處理報告、合同、研究論文等文件。而在編碼任務中,GPT-5.2能更可靠地調試生產環境代碼、以更少的人工干預完成修復交付。

OpenAI演示了一些編碼方面的案例,例如,只需要一個提示,GPT-5.2就能生成一個海浪模擬器、一個節日賀卡生成器。其中,海浪模擬器可以拉動數值,改變風速和海浪高度。OpenAI還強調了GPT-5.2 Thinking的幻覺率低于前一代,在一組去標識的查詢中,新模型錯誤回答的頻率比GPT-5.1 Thinking減少了38%。OpenAI稱,這意味著在寫作、研究、分析和決策中模型犯的錯誤更少,GPT-5.2 Thinking在圖表推理和軟件界面理解方面的錯誤率減少了大約一半。此外,OpenAI稱,GPT-5.2 Pro和GPT-5.2 Thinking還是目前最有助于加快科研進展的模型。

GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陸續推出,付費套餐用戶將能率先體驗。不過,OpenAI應對谷歌等競爭而拉響的“紅色警報”,并未隨著GPT-5.2的發布而解除。

此前OpenAI CEO山姆·奧爾特曼(Sam Altman)在內部備忘錄中承認,隨著谷歌等競爭對手的快速進步,公司正面臨“氛圍緊張”和“經濟逆風”的雙重挑戰。

此次OpenAI則表示,拉響“紅色警報”是為了集中資源,是一種明確優先級的方式,公司確實增加了更多與ChatGPT相關的資源。奧爾特曼表示,谷歌發布的Gemini 3對公司的一些指標的影響,比原本預計的更小,但當競爭對手的威脅出現時,應該專注并迅速應對,OpenAI預計在明年1月之前結束“紅色警報”狀態。

GPT-5.2將不是OpenAI應對競爭拋出的唯一產品,奧爾特曼在社交媒體上表示,下周OpenAI還將送出一些“小小的圣誕禮物”。

精彩推送

公司

一系列金融支持民營經濟、民營企業發展的政策舉措正密集出臺加速落地。

詳細>>

9月份以來,人民幣匯率持續走低。9月8日,離岸人民幣對美元匯率盤中最

詳細>>

國家統計局發布的數據顯示,8月份,全國居民消費價格指數(CPI)同比上

詳細>>

國家統計局9月9日發布的數據顯示,8月全國居民消費價格指數(CPI)同比

詳細>>

今年前8個月,鄭州商品交易所累計成交量約25億手,同比增長64%。這是記

詳細>>

中國電影觀眾滿意度調查2023年暑期檔調查結果顯示,暑期檔電影觀眾滿意

詳細>>
主站蜘蛛池模板: 久久久久久国产精品| 国产精品久久久久久久久久久久 | 国产精品久久久影院| 亚洲五码在线观看视频| 欧美日韩国产成人在线观看| 91久久精品国产| 国产精品久久久久国产a级| 久久最新免费视频| 日本一区二区三不卡| 中文精品无码中文字幕无码专区| 精品日韩在线播放| 久久久久久草| 欧美精品自拍视频| 欧美亚洲另类在线| av免费精品一区二区三区| 国产欧美日韩丝袜精品一区| 久久国产精品久久精品国产| 久久久中文字幕| 久久精品一本久久99精品| 日韩精品欧美专区| 日本国产中文字幕| 日本一二三区视频在线| 天天综合五月天| 日韩aⅴ视频一区二区三区| 日本一区免费| 久章草在线视频| 黄色片视频在线播放| 国产日韩在线播放| 国产精品入口尤物| 91精品久久久久久久久久久 | 亚洲一区中文字幕| 91精品国产成人| 亚洲中文字幕无码一区二区三区| 91国产一区在线| 97久久精品在线| 亚洲.欧美.日本.国产综合在线| 色综合久久av| 欧美亚洲日本在线观看| 欧美激情国产精品日韩| 久久精品免费一区二区| 国产素人在线观看|