AI 職業預測並不可靠，三大模型對風險存在分歧

一項新研究揭示，預測失業的 AI 模型自身在哪些職業將受衝擊的問題上無法達成共識，分歧率高達 25%。

一項最新研究發現，全球領先的人工智能模型對哪些工作最容易被自動化取代產生了各異且往往相互矛盾的預測，這引發了人們對 AI 驅動的經濟預測可靠性的質疑。這份由美國國家經濟研究局（NBER）發布的進展報告強調了一個已成為政策制定者和勞動者共同關注的緊迫領域的這種不確定性，顯示出三大頂尖模型在就業風險評估上存在分歧。

「我個人不會僅依靠一種衡量標準來斷言，『哦，我應該換個工作』，或者『我應該讓我孩子換個專業』」，該研究的作者之一、西北大學的蜜雪兒·尹（Michelle Yin）表示。研究表明，雖然 AI 正被用於預測其自身的影響，但結果遠非一致，因此呼籲大家保持謹慎，不要盲目相信這些預測。

這項研究由尹、西北大學的華·武（Hoa Vu）以及美利堅大學的克勞迪婭·佩西科（Claudia Persico）共同撰寫，審查了三大 AI 模型的職業暴露排名：OpenAI 的 ChatGPT-5、Google Deepmind 的 Gemini 2.5 以及 Anthropic 的 Claude 4.5。例如，Claude 認為會計師極易受到 AI 的影響，而 Gemini 給出的風險評估則要低得多。這些模型在廣告經理和首席執行官等職位的脆弱性評估上也存在分歧。

這些發現對依賴 AI 生成的「暴露得分」進行戰略勞動力規劃的投資者和公司構成了挑戰。由於 ChatGPT 和 Gemini 在約四分之一的時間裡意見不一，該研究表明，當前一代 AI 可能反映的是現有的採用偏差，而非對未來顛覆的清晰洞察。

模型間的分歧

研究的核心涉及向 AI 模型輸入來自勞工部數據庫的任務，以觀察它們能夠執行哪些任務。經濟學家發現，模型之間的一致性水平驚人地低。雖然 ChatGPT 和 Gemini 的一致性最高，但它們在很大一部分職業的評估上仍給出了不同的判斷。

這種分歧至關重要，因為這些暴露得分正日益被用於諮詢白皮書、研究筆記和政策報告，以指導有關勞動力培訓和支持的決策。研究認為，其中一些差異可能源於模型的訓練數據；金融分析等領域的早期採用者會產生更多與 AI 相關的數據，這反過來可能導致模型將這些職業評為更易受影響。

對勞動力規劃的影響

這些 AI 生成得分的不可靠性具有重大影響。試圖為失業工人設計支持系統的政策制定者，以及建議學生選擇「防 AI」職業的教育機構，可能都在根據有缺陷的數據進行操作。經濟學家建議，研究人員不應依賴單一的 AI 模型，而應參考多種模型，並對預測的不確定性保持透明。

對於投資者而言，這項研究警示不要基於過於簡單的 AI 取代敘事進行行業性押注。AI 模型之間缺乏共識表明，對勞動力市場的實際影響將比許多報告所暗示的更加微妙且難以預測。任何給定工作的真實暴露程度，與其說取決於模型的理論能力，不如說取決於 AI 在整個經濟中的實際實施方式，這一過程需要更穩健的調查和人機回環（human-in-the-loop）分析。

本文僅供參考，不構成投資建議。