百度的全新文心一言 5.1 模型在實現頂尖性能的同時,將預訓練成本大幅削減了 94%,預示著市場可能向更高效的 AI 架構轉型。
返回
百度的全新文心一言 5.1 模型在實現頂尖性能的同時,將預訓練成本大幅削減了 94%,預示著市場可能向更高效的 AI 架構轉型。

與同類大型模型相比,百度全新的文心一言 5.1 AI 已將預訓練成本削減了 94%。此舉挑戰了該領域佔主導地位的資本密集型策略,並使這家中國科技巨頭成為高效 AI 開發的領導者。
百度解釋說,這項技術被稱為「多維彈性預訓練」。它詳細介紹了一種從現有的文心一言 5.0 架構中提取並壓縮子網絡的方法,而不是從頭開始構建新模型。
這種壓縮將總參數減少到原始模型的大約三分之一,並將活躍參數減半。儘管如此,文心一言 5.1 在 LMArena 搜索排行榜上仍以 1,223 分獲得全球第四名。在 AIME26 數學基準測試中,該模型在工具輔助下的得分為 99.6%,僅次於谷歌的 Gemini 3.1 Pro。
對於在納斯達克上市的百度 (BIDU) 而言,僅以通常數百萬美元訓練成本的 6% 就實現了旗艦級性能,這提供了顯著的競爭優勢。這一突破對 OpenAI、谷歌和微軟等競爭對手構成了直接壓力,並呼應了 DeepSeek 2025 年低成本推理模型引起的市場顛覆。這可能會加速全市場向更高效架構的轉型,並有利於百度在全球 AI 競賽中的地位。
百度通過文心一言 5.1 採取的方案標誌著對行業普遍盛行的「越大越好」哲學的重大背離。該公司沒有為了從頭開始訓練新模型而產生巨額計算開銷,而是繼承了其更大的父模型文心一言 5.0 的知識庫。這種效率優先的策略反映了 DeepSeek R1 模型在 2025 年產生的影響,後者以低 98% 的單次查詢成本匹配了 OpenAI o1 的性能,並引發了英偉達市值 6,000 億美元的調整。
新模型的底層技術是百度稱之為「多教師在線策略蒸餾 (MOPD)」的四階段強化學習系統。該系統並行訓練了代碼、推理和代理任務的專家模型。然後將這些專業技能蒸餾到一個統一的模型中,這種方法旨在防止提高一種能力卻降低另一種能力的「蹺蹺板效應」。最後的在線學習階段完善了開放式對話技巧。
文心一言 5.1 的表現使其領先於所有其他中國模型,並與西方同行旗鼓相當。其代理能力(對於複雜的多步任務至關重要)已經超越了之前的中國基準模型 DeepSeek-V4-Pro。在衡量模型回答專家級問題能力的 GPQA 基準測試中,文心一言 5.1 已接近西方領先閉源模型的表現。
這一成就使得控制著中國 76% 以上搜索市場的百度能夠增強其服務,而無需承受前沿模型訓練的全部成本負擔。該公司表示,文心一言 5.1 已經部署在中國超過 10 個平台上,從 AI 角色扮演應用到短劇生成工具不等。
對於投資者而言,百度在保持競爭性能的同時大幅降低訓練成本的成功可能是一個看漲信號。這表明,推動英偉達等股票上漲的 AI 硬件和計算需求可能並非成功的唯一路徑。百度計劃在 5 月 13 日至 14 日於北京舉行的 Create 2026 開發者大會上提供更多關於工業應用的細節,屆時該活動將因其企業和全球擴張戰略的信號而受到密切關注。
本文僅供參考,不構成投資建議。