借力新型可靠性工具 AI模型錯誤率降低26%

谷歌、OpenAI和Anthropic提供的人工智慧模型正通過利用外部工具和經由人工驗證的數據變得更加可靠。這一轉變使OpenAI最新模型的真實性錯誤減少了26%，對企業級應用至關重要。最近Anthropic的Claude Code代碼泄露也凸顯了這一趨勢，即AI正從純粹的生成式推測轉向更可信的、由工具輔助的方式。

「Claude在獨立評估中始終脫穎而出的地方，被研究人員稱為『校準』：即模型知道自己不知道什麼，並如實告知，」Anthropic的一位發言人表示。他提到了整個行業都在努力減少AI「幻覺」並提高模型回答的誠實度。

提升可靠性的努力集中在三個核心變化上。首先，模型正接受由付費人類專家策劃的專業數據訓練，而不再僅僅依靠通用的網絡內容。它們現在還能使用搜索引擎獲取實時信息。OpenAI的內部測試顯示，其最新模型的真實性錯誤比兩年前的版本減少了26%。其次，AI現已整合了傳統的軟件工具（如計算器），以執行數學和編程問題的符號推理。第三，各公司正採用「模型評議會」機制，即讓一個AI（如ChatGPT）的回答由另一個AI（如Claude）進行交叉核對，以確保在呈現給用戶前其正確無誤。

這種對可靠性的關注是直接響應客戶對可信AI的需求，這對於將此類系統部署在財務分析和醫療診斷等高風險商業環境中至關重要。對於谷歌母公司Alphabet (GOOGL)、微軟支持的OpenAI以及亞馬遜支持的Anthropic而言，證明一條通向可靠且能創收的應用路徑，可能會顯著影響其估值，並加速其在科技行業的應用。

混合智慧方案

泄露的Anthropic Claude Code源代碼揭示了一個將大語言模型（LLM）與傳統編程相結合的複雜系統。分析該代碼的AI研究人員表示，它包含管理對話記憶的專用系統，以防止上下文過載——這是一個已知會導致幻覺增加的問題。另一段脚本被發現可通過掃描粗俗詞彙來檢測用戶的挫敗感，這表明除了純粹的準確性外，用戶體驗也是關注重點。

這種混合模型挑戰了僅憑LLM就能實現類人推理的觀點。「LLM本身或多或少還是和以前一樣不可靠，」AI研究員加里·馬庫斯（Gary Marcus）說道。他稱讚像Claude Code這樣的系統將LLM的概率性質與計算機代碼的確定性、嚴謹邏輯相結合，他認為這種結合對於實際應用至關重要。

「模型評議會」

利用多個AI來驗證工作正成為新的行業質量控制標準。諮詢公司NineTwoThree的首席技術官帕維爾·基里洛夫（Pavel Kirillov）將此稱為「模型評議會」。他表示，通過讓一家供應商的AI結果接受另一家公司模型的檢查，最終輸出的質量和準確性將得到顯著提升。這種方法正被為FanDuel和《消費者報告》等客戶構建專業AI系統的公司所採用。

因此，AI服務的改進不僅源於更底層的智慧模型，還源於整合了更新信息、傳統軟件和交叉驗證的更穩健架構。雖然這可能比追求通用人工智能的現實更加乏味，但它更具實用性且具備商業可行性。行業巨頭們已經意識到，他們的創造物無法獨立完成所有工作，仍需要人類磨練出的工具和知識。

本文僅供參考，不構成投資建議。