国产成人a级片_色婷婷亚洲精品_91国产视频在线观看_欧美精品一二三四

GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除 每日熱門

2025-12-12 12:59:08 來源:第一財經

拉響“紅色警報”應對谷歌競爭后,當地時間12月11日,OpenAI推出了GPT-5.2,包含GPT-5.2 Instant、Thinking和Pro模式,此時距離OpenAI更新GPT-5.1只過去了一個月。


(相關資料圖)

此次發布GPT-5.2,被外界視為OpenAI應對谷歌挑戰的一次反擊。上個月谷歌發布Gemini 3后,在硅谷掀起一場AI權力的重新分配,OpenAI作為大模型霸主的地位受到挑戰。

不同于GPT-5.1著重強調具有“情緒價值”、能與人愉快交談,此次應對挑戰,OpenAI拿出了更多“真槍實彈”。GPT-5.2推出了更多智能上的更新,也放出了基準測試的分數。可以看到一些基準測試分數提升明顯。

例如,在知識型工作任務GDPval測試中,GPT-5.2Thinking的分數為70.9%,明顯超過GPT-5.1的38.8%,在抽象推理ARC-AGI-2基準測試中,GPT-5.2Thinking的分數為52.9%,明顯超過GPT-5.1的17.6%。另一些基準測試分數也有提升,在軟件工程SWE-Bench Pro、科學問題GPQA Diamond、科學圖表類問題CharXiv推理、數學競賽HMMT測試中,GPT-5.2Thinking的分數為55.6%、92.4%、88.7%、99.4%,GPT-5.1為50.8%、88.1%、80.3%、96.3%。

基于這些能力提升,OpenAI稱為專業知識型工作打造的GPT-5.2是公司至今最強的模型,“GPT-5.2在眾多基準測試中都刷新了行業水平,例如GDPval測試中,這款模型在涵蓋44個職業的明確知識型工作任務中表現超過了行業專家。”

谷歌發布的Gemini 3 Pro此前在基準測試榜單中“屠榜”,OpenAI此次在基準測試榜單中終于扳回一局。

據此前谷歌放出的數據,在ARC-AGI-2測試中,Gemini 3 Pro分數為31.1%,遠超GPT-5.1的17.6%,GPQA Diamond測試中,Gemini 3 Pro分數為91.9%,超過GPT-5.1的88.1%,這種明顯的能力提升當時引來業內人士預言“未來6個月內很難有公司能超越這一成績”。此次GPT-5.2在上述兩項基準測試中得分終于超過了Gemini 3 Pro。不過,記者留意到,當時谷歌放出的一些分數明顯超過OpenAI的基準測試,例如Humanitys Last Exam,此次GPT-5.2并未放出。

OpenAI此次也強調了新模型在專業工作中的可用性,稱基準測試得分體現了GPT-5.2在制作演示文稿、電子表格等方面的表現優于或與專業人士持平,生成的電子表格和幻燈片在復雜度和格式呈現上相比前一代有明顯提升。不過,用戶要使用新的電子表格和演示文稿功能,需要訂閱付費套餐。長上下文能力使新模型能處理報告、合同、研究論文等文件。而在編碼任務中,GPT-5.2能更可靠地調試生產環境代碼、以更少的人工干預完成修復交付。

OpenAI演示了一些編碼方面的案例,例如,只需要一個提示,GPT-5.2就能生成一個海浪模擬器、一個節日賀卡生成器。其中,海浪模擬器可以拉動數值,改變風速和海浪高度。OpenAI還強調了GPT-5.2 Thinking的幻覺率低于前一代,在一組去標識的查詢中,新模型錯誤回答的頻率比GPT-5.1 Thinking減少了38%。OpenAI稱,這意味著在寫作、研究、分析和決策中模型犯的錯誤更少,GPT-5.2 Thinking在圖表推理和軟件界面理解方面的錯誤率減少了大約一半。此外,OpenAI稱,GPT-5.2 Pro和GPT-5.2 Thinking還是目前最有助于加快科研進展的模型。

GPT-5.2Instant、Thinking和Pro周四在ChatGPT中陸續推出,付費套餐用戶將能率先體驗。不過,OpenAI應對谷歌等競爭而拉響的“紅色警報”,并未隨著GPT-5.2的發布而解除。

此前OpenAI CEO山姆·奧爾特曼(Sam Altman)在內部備忘錄中承認,隨著谷歌等競爭對手的快速進步,公司正面臨“氛圍緊張”和“經濟逆風”的雙重挑戰。

此次OpenAI則表示,拉響“紅色警報”是為了集中資源,是一種明確優先級的方式,公司確實增加了更多與ChatGPT相關的資源。奧爾特曼表示,谷歌發布的Gemini 3對公司的一些指標的影響,比原本預計的更小,但當競爭對手的威脅出現時,應該專注并迅速應對,OpenAI預計在明年1月之前結束“紅色警報”狀態。

GPT-5.2將不是OpenAI應對競爭拋出的唯一產品,奧爾特曼在社交媒體上表示,下周OpenAI還將送出一些“小小的圣誕禮物”。

關鍵詞: GPT OpenAI 推出 Thinking 基準

相關文章

熱文推薦

GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除 每日熱門
GPT-5.2部分基準測試分數超過谷歌 但OpenAI“紅色警報”尚未解除 每日熱門

【GPT-5 2部分基準測試分數超過谷歌但OpenAI“紅色警......更多>

冬泳健身-每日速遞
冬泳健身-每日速遞

12月11日,呼和浩特市青城公園冬泳基地熱鬧非凡,數十......更多>

九問九答!海南自貿港全島封關,將帶來這些紅利
九問九答!海南自貿港全島封關,將帶來這些紅利

制作:劉珂君、曹磊、岳小喬、皇甫凌雨[責任編輯:姚亞兵]...更多>

中金:維持科倫博泰生物-B(06990)跑贏行業評級 目標價550港元-今日熱文
中金:維持科倫博泰生物-B(06990)跑贏行業評級 目標價550港元-今日熱文

智通財經APP獲悉,中金發布研報稱,考慮到科倫博泰生......更多>

排行推薦

濱江集團:融資凈償還2440.19萬元,融資余額3.49億元(12-11)|焦點信息
濱江集團:融資凈償還2440.19萬元,融資余額3.49億元(12-11)|焦點信息
2025年12月11日濱江集團融資凈償還2440 19萬元,融資... 更多>
焦點快播:都體:尤文正在關注被穆帥盛贊的本菲卡17歲左后衛若澤-內托
焦點快播:都體:尤文正在關注被穆帥盛贊的本菲卡17歲左后衛若澤-內托
都體:尤文正在關注被穆帥盛贊的本菲卡17歲左后衛若澤... 更多>
播報:Opera“AI瀏覽器”Neon上線:月費19.9美元,號稱每周都有大變化
播報:Opera“AI瀏覽器”Neon上線:月費19.9美元,號稱每周都有大變化
Opera“AI瀏覽器”Neon上線:月費19 9美元,號稱每周... 更多>
今日播報!萬順瑞強集團(08427.HK)完成配發21.6萬股
今日播報!萬順瑞強集團(08427.HK)完成配發21.6萬股
格隆匯12月11日丨萬順瑞強集團(08427 HK)公告,董事... 更多>
每日時訊!福石控股:暫不涉及AI眼鏡業務
同花順(300033)金融研究中心12月10日訊,有投資者向... 更多>
2025年我國脫貧攻堅成果持續鞏固拓展 每日快報
農業農村部有關負責人表示,我國監測幫扶機制有效運行... 更多>
今日熱訊:生意社:2025年12月8日中鋁氧化鋁現貨價格下跌
中國鋁業股份有限公司2025年12月10日氧化鋁現貨價格各... 更多>
最資訊丨巴州區天馬山鎮瓊氏殯葬服務店(個體工商戶)成立 注冊資本1萬人民幣
天眼查App顯示,近日,巴州區天馬山鎮瓊氏殯葬服務店... 更多>
遭意外圍剿!小紅書,錯在哪?
試水三個月后暫停運營,小紅書“小紅卡”項目踩剎車。... 更多>
“飛魚”破浪:16歲少年鄭俊鴻的殘特奧首金之路_焦點精選
東南網12月10日訊(本網記者薛莞馨原芷晴)他雙腿無法... 更多>
生意社:2025年12月9日外盤乙二醇價格微跌
2025年12月9日外盤乙二醇價格如下:乙二醇中國到岸價... 更多>
段永平接受王石訪談:隨時準備逃就是在投機,80%以上的散戶“牛市”“熊市”都虧錢
紅星資本局12月9日消息,近日,步步高創始人、投資人... 更多>
無人機“誰能飛”“誰在飛”?兩項強制性國家標準發布
人民網北京12月10日電(記者郝帥)據國家市場監管總局... 更多>
2025年湖南“歡樂瀟湘”優秀群眾文藝作品展演在長沙舉行|每日熱門
12月9日拍攝的2025年湖南“歡樂瀟湘”優秀群眾文藝作... 更多>

熱點!漲停雷達:跨境電商+功能沙發

生意社:12月10日內蒙地區螢石市場

視頻丨11月中國快遞發展指數同比增

經濟日報|全面客觀看待房地產市場

磷礦石價格高位運行 產業鏈一體化

中泰證券:軟飲料需求景氣延續 關

蘇州彤興機械加工有限公司成立 注

每日速看!米塔爾鐵路運營準則引主權

防護服龍頭名單,收好!(2025/12/9)

每日快訊!聞泰科技邀請荷蘭安世股權

主站蜘蛛池模板: 国产中文字幕视频在线观看 | 久久中文字幕一区| 亚洲最新免费视频| 欧洲精品在线视频| 色婷婷综合久久久久中文字幕| 日韩av在线综合| 精品激情国产视频| 亚洲v国产v| 久久99亚洲精品| 日本不卡一区二区三区四区| 久久久中精品2020中文| 久久久久久成人| 中文字幕在线观看一区二区三区| 丁香六月激情婷婷| 久久久久久草| 国产精品91视频| y111111国产精品久久婷婷| 国产精品美女免费看| 激情小说网站亚洲综合网| 中文精品一区二区三区| y111111国产精品久久婷婷| 国产精品久久久久久久久久三级| 久久久精品网站| 日韩精品福利片午夜免费观看| 91av在线播放| 亚洲一区中文字幕| 午夜精品一区二区三区在线 | www.午夜精品| 激情小说综合区| 91超碰中文字幕久久精品| 国产精品久久九九| 日韩欧美视频免费在线观看| 91精品国产亚洲| 天堂资源在线亚洲视频| 亚洲一区中文字幕| 久久久国产精品亚洲一区| 国产精品久久不能| 91精品视频专区| 国产精品自产拍在线观看| 99免费在线观看视频| 欧美日本韩国国产|