GPT-5.3-Codex得分77.3%,超越競爭對手模型
OpenAI與競爭對手Anthropic展開直接對抗,於週四Anthropic發佈其旗艦更新Claude Opus 4.6的同時,推出了其新的程式設計模型GPT-5.3-Codex。這次同步發佈標誌著企業AI軟體市場競爭的顯著升級。OpenAI聲稱其新模型是一個重大飛躍,在Terminal-Bench 2.0基準測試中獲得了77.3%的分數,這項測試衡量了程式設計代理的基本終端操作技能。這比其前身提高了13個百分點,並顯著超越了Anthropic的Opus 4.6報告的65.4%分數。
除了基準測試,OpenAI還強調了顯著的效率提升,稱新模型所需的tokens量不到前身的一半,同時推理速度提高了超過25%。在一個行業里程碑中,該公司還透露,GPT-5.3-Codex的早期版本已用於其自身的開發、調試和部署。OpenAI首席執行官Sam Altman指出:「看著我們用5.3-Codex構建5.3-Codex……這是對未來強大的一瞥。」
企業AI支出預計達到每公司1160萬美元,OpenAI的領先優勢縮小
科技軍備競賽正因企業AI支出的爆炸式增長而加劇。根據Andreessen Horowitz的一項調查,大型語言模型上的平均企業支出預計在2025年達到700萬美元,比2024年的250萬美元增長180%。預計到2026年,這一數字將再增長65%,達到1160萬美元。這個迅速擴大的“獎池”正在加劇市場份額的競爭。
同樣的數據顯示了格局的變化。雖然OpenAI仍然是主導者,但其在企業AI支出中的份額預計將從2024年的62%下降到2026年的53%。同期,Anthropic的市場份額預計將從14%增長到18%,谷歌也佔據了越來越大的市場份額。這種競爭壓力有助於解釋日益公開的競爭,最近Altman和Anthropic還在廣告策略上爭論不休。
OpenAI將Codex從程式設計師擴展到通用代理
OpenAI正在戰略性地將Codex從專業的程式設計助手重新定位為能夠處理廣泛知識工作的多功能代理。該公司表示,該模型現在可以管理從調試和部署到用戶研究和電子表格數據分析等任務,這表明它直接挑戰了由微軟和Salesforce等公司主導的更廣泛的企業生產力軟體市場。
為了鞏固其地位,OpenAI還將GPT-5.3-Codex指定為其首個在網路安全方面具有“高能力”的模型,專門用於識別軟體漏洞。為了加速採用和防禦能力,Altman宣布承諾向網路安全研究人員提供1000萬美元的API積分。
這是建設者的時代,而不是那些想要控制他們的人的時代。
— Sam Altman,OpenAI執行長