GPT-5.3-Codex得分77.3%,超越竞争对手模型
OpenAI与竞争对手Anthropic展开直接对抗,于周四Anthropic发布其旗舰更新Claude Opus 4.6的同时,推出了其新的编程模型GPT-5.3-Codex。这次同步发布标志着企业AI软件市场竞争的显著升级。OpenAI声称其新模型是一个重大飞跃,在Terminal-Bench 2.0基准测试中获得了77.3%的分数,这项测试衡量了编程代理的基本终端操作技能。这比其前身提高了13个百分点,并显著超越了Anthropic的Opus 4.6报告的65.4%分数。
除了基准测试,OpenAI还强调了显著的效率提升,称新模型所需的tokens量不到前身的一半,同时推理速度提高了超过25%。在一个行业里程碑中,该公司还透露,GPT-5.3-Codex的早期版本已用于其自身的开发、调试和部署。OpenAI首席执行官Sam Altman指出:“看着我们用5.3-Codex构建5.3-Codex……这是对未来强大的一瞥。”
企业AI支出预计达到每公司1160万美元,OpenAI的领先优势缩小
科技军备竞赛正因企业AI支出的爆炸式增长而加剧。根据Andreessen Horowitz的一项调查,大型语言模型上的平均企业支出预计在2025年达到700万美元,比2024年的250万美元增长180%。预计到2026年,这一数字将再增长65%,达到1160万美元。这个迅速扩大的“奖池”正在加剧市场份额的竞争。
同样的数据显示了格局的变化。虽然OpenAI仍然是主导者,但其在企业AI支出中的份额预计将从2024年的62%下降到2026年的53%。同期,Anthropic的市场份额预计将从14%增长到18%,谷歌也占据了越来越大的市场份额。这种竞争压力有助于解释日益公开的竞争,最近Altman和Anthropic还在广告策略上争论不休。
OpenAI将Codex从程序员扩展到通用代理
OpenAI正在战略性地将Codex从专业的编程助手重新定位为能够处理广泛知识工作的多功能代理。该公司表示,该模型现在可以管理从调试和部署到用户研究和电子表格数据分析等任务,这表明它直接挑战了由微软和Salesforce等公司主导的更广泛的企业生产力软件市场。
为了巩固其地位,OpenAI还将GPT-5.3-Codex指定为其首个在网络安全方面具有“高能力”的模型,专门用于识别软件漏洞。为了加速采用和防御能力,Altman宣布承诺向网络安全研究人员提供1000万美元的API积分。
这是建设者的时代,而不是那些想要控制他们的人的时代。
— Sam Altman,OpenAI首席执行官