Anthropic 發布 Claude 4.7：編程能力飆升，但長文本性能縮減 46%

Anthropic 發布了 Claude Opus 4.7，其在軟體工程基準測試中得分領先，但該模型的長文本召回率（long-context recall）暴跌了 46 個百分點以上，這標誌著其戰略正從追求全能表現轉向專業化的企業工具。

Anthropic 分享的一份聲明中，Hex 的首席技術官表示：「這是一個更智能、更高效的 Opus 4.6。低投入下的 Opus 4.7 大約相當於中等投入下的 Opus 4.6。」

新模型在 SWE-bench Pro 編程測試中得分 64.3%，較前代產品的 53.4% 有顯著提升，並領先於 OpenAI GPT-5.4 的 57.7%。然而，在 MRCR v2 長文本基準測試中，其得分從 Opus 4.6 的 78.3% 崩塌至 32.2%。這是由於採用了新的分詞器（tokenizer）所致，該分詞器同時也增加了用戶的實際使用成本。

這種權衡表明，據報導年化收入率已達 300 億美元的 Anthropic 正在將高利潤的企业編程和智能體工作流（agentic workflow）市場置於昂貴的超大上下文窗口競爭之上。對於開發者而言，這意味著獲得了一個更強大但可能更昂貴的工具，但它不再適合長文檔分析——而這曾是該公司的領先領域。

有針對性的升級

Opus 4.7 並非全面的改進，而是有針對性的升級。該模型的提升集中在對企業開發者至關重要的領域，據報導，這一細分市場在 2 月份為 Claude Code 帶來了 25 億美元的年化收入。在衡量主流 AI 代碼編輯器性能的 CursorBench 測試中，Opus 4.7 得分為 70%，較前代提升了 12 個百分點。早期合作夥伴樂天（Rakuten）報告稱，新模型解決生產任務的效率是 Opus 4.6 的三倍。

視覺能力也得到了大幅提升。在 XBOW 視覺基準測試中，Opus 4.7 的準確率從前代模型的 54.5% 躍升至 98.5%。這一進步，結合圖像解析度的三倍提升，使得讀取密集圖表或截圖等複雜視覺任務達到了生產環境所需的可靠水平，這是計算機使用代理（computer-use agents）的核心要求。

但這些改進是有代價的。該模型從大型文檔中召回信息的能力——這是此前 Claude 版本的招牌特色——已被大幅削減。在長文本基準測試中 46 個百分點的下滑，對於法律和研究等依賴分析長篇文本的用戶來說，Opus 4.7 是一個顯著的退步。Anthropic 將這一變化歸因為處理文本方式不同的新分詞器。

隱藏成本

雖然 Anthropic 宣佈其標稱價格保持不變，即每百萬輸入 token 5 美元，每百萬輸出 token 25 美元，但新分詞器意味著同樣的文本現在會產生 1.0 到 1.35 倍的 token。此外，新的默認「xhigh」努力級別會消耗更多算力，這導致許多用戶的實際成本切身增加。

此次發佈被一些人視為一種戰略策略。Anthropic 明確表示，Opus 4.7 的「綜合能力」不如其最強大的模型——尚未發佈的 Claude Mythos Preview，後者僅提供給谷歌和微軟等少數合作夥伴用於網絡安全研究。通過削減長文本召回和網絡搜索等功能（Opus 4.7 在這些方面目前落後於 GPT-5.4 和 Gemini 3.1 Pro），Anthropic 似乎正在將資源集中在變現路徑最清晰的商業應用上。

對於投資者和企業客戶而言，Opus 4.7 是 AI 市場走向成熟的明確信號。在每個基準測試中追逐「最強模型」的時代可能正在讓位於針對特定高價值任務設計的專業化模型階段。雖然 Opus 4.7 擴大了 Anthropic 在利潤豐厚的編程和智能體工作流領域的領先地位，但其刻意的權衡意味著客戶現在評估模型時，不僅要看其強項，還要看其有意設計的弱點。

本文僅供參考，不構成投資建議。