AIトレーダー、市場テストで33%の損失。ウォール街の「採用面接」に失敗

世界の主要な人工知能（AI）モデル8種に取引口座へのアクセス権を与えた野心的なコンテストは、ポートフォリオ全体で約33%の損失という結果に終わりました。これは、AIの分析能力と現実世界での取引能力との間にある大きな溝を浮き彫りにしました。テック系スタートアップのNof1が主催したこのイベントでは、32通りの結果のうち利益が出たのはわずか6つにとどまり、大規模言語モデル（LLM）が自律的な金融市場への準備ができているという説に疑問を投げかけました。

「今はLLMにお金を渡して、勝手に取引させる時期ではありません」と、Nof1の創設者であるジェイ・アザン氏は結果を率直に評価しました。「その道はまだ実行可能ではありません」

「アルファ・アリーナ（Alpha Arena）」と名付けられたこのコンテストでは、OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなどのモデルに対し、それぞれ1万ドルの資金を提供。4つの独立したラウンドで、2週間にわたって米国テック株を取引させました。パフォーマンスは悪いだけでなく、極めて不安定でした。あるラウンドでは、アリババのQwenモデルが1,418回の取引を実行した一方で、イーロン・マスク氏率いるxAIのGrok 4.20はわずか158回しか取引しませんでした。

この結果は、市場規模1.8兆ドルのAI業界にとって重要な区別を強調しています。それは「研究」と「実行」の違いです。GoogleやOpenAIといったテック巨人のモデルは膨大なデータを処理できますが、利益を上げる取引に不可欠な市場のタイミング、ポジションサイジング、リスク管理に関する微妙な感覚が現状では欠けています。この失敗は、金融におけるAIの差し当たっての影響が、自律的なエージェントとしてではなく、人間のトレーダーの「副操縦士（コパイロット）」としての役割にとどまることを示唆しています。

研究 vs 現実

専門家は、LLMがリサーチ指向のタスクには長けているものの、取引の実行段階ではつまずくと指摘しています。アザン氏は、モデルがアナリストの格付けからインサイダー取引の動きまで、無数の市場変数の重要性を適切に判断するのに苦労しており、その結果、タイミングの悪い、サイズの不適切な賭けにつながっていると指摘しました。これは、モデルが独自の「性格」を形成していることからも明らかでした。伝えられるところによれば、Claudeはロング（買い）ポジションを好んだのに対し、Geminiは株の空売りを躊躇なく行いました。

この分析的な強みは、インテリジェント・アルファ（Intelligent Alpha）による別のベンチマークテストで検証されました。収益予想の修正方向の予測に焦点を当てたその調査では、OpenAIのChatGPTが2025年第4四半期について68%の的中率を達成しました。これは、LLMが単独でポートフォリオを管理するにはまだ信頼できないものの、人間の意思決定をサポートする強力な分析ツールであることを示唆しています。

利益証明の難しさ

AIの取引能力の評価は、「先読みバイアス」と呼ばれる根本的な手法上の欠陥によって複雑化しています。2026年の時点で2020年の市場データを使ってテストされたモデルは、すでに結果を「知っている」ため、過去のバックテストは無意味になります。このため、研究者は限界があることを承知の上で、真の評価のために「アルファ・アリーナ」のようなライブコンテストを利用せざるを得なくなっています。

YipitDataの元共同創設者で、現在はブログ「Flat Circle」を執筆しているジム・モラン氏は、ほとんどの公開実験は期間が短すぎてノイズが多く、確実な結論を出すには不十分だと主張しています。さらに、Coatue Managementの元幹部であるアレクサンダー・イジドルチック氏は、自身が追跡しているAI取引ボットの中に持続的な超過収益を示したものは一つもないと指摘しました。これは、大手ヘッジファンドが使用する独自のクオンツ技術が欠けているためと考えられます。イジドルチック氏はブログでこう記しています。「LLMエージェントの取引戦略が本当に機能し始めたとき、その話がすぐに耳に入ることはないでしょう」

Nof1は、AIにより多くのデータと能力を与える「アルファ・アリーナ」の第2シーズンを計画しています。しかし、同社の核となるビジネスは自律型ファンドの運用ではなく、個人トレーダーが独自のAIエージェントを構築するためのツールを提供することです。このビジネスモデル自体が、AIの現状に対する現実的な認識となっています。つまり、AIは強力なツールではあるものの、現時点では依然として人間が関与する必要があるということです。

この記事は情報提供のみを目的としており、投資勧誘を目的としたものではありません。