Les traders IA perdent 33 % lors d'un test de marché, échouant à l'entretien de Wall Street

Une compétition ambitieuse ayant donné accès à un compte de trading à huit des principaux modèles d'intelligence artificielle au monde s'est soldée par une perte collective de portefeuille d'environ 33 %, une démonstration flagrante de l'écart entre les prouesses analytiques de l'IA et le sens du trading en conditions réelles. L'événement, organisé par la startup technologique Nof1, a vu seulement six des 32 résultats possibles générer un profit, remettant en cause l'idée selon laquelle les grands modèles de langage (LLM) sont prêts pour les marchés financiers autonomes.

« Ce n'est pas le moment de donner de l'argent à un LLM et de le laisser trader tout seul », a déclaré Jay Azhang, fondateur de Nof1, dans une évaluation sans détour des résultats. « Cette voie n'est pas encore viable. »

La compétition Alpha Arena a fourni à des modèles tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic 10 000 $ chacun à travers quatre rounds indépendants pour trader des actions technologiques américaines sur des périodes de deux semaines. La performance a été non seulement médiocre, mais aussi extrêmement incohérente. Dans un round, le modèle Qwen d'Alibaba a exécuté 1 418 transactions, tandis qu'un modèle de xAI d'Elon Musk, Grok 4.20, n'en a réalisé que 158.

Ce résultat met en lumière une distinction critique pour l'industrie de l'IA, pesant 1,8 billion de dollars : la différence entre la recherche et l'exécution. Bien que les modèles des géants technologiques comme Google et OpenAI puissent traiter de vastes quantités de données, ils manquent actuellement de la compréhension nuancée du timing de marché, du dimensionnement des positions et de la gestion des risques, essentiels pour un trading rentable. Cet échec suggère que l'impact le plus immédiat de l'IA dans la finance sera celui de co-pilote pour les traders humains, et non celui d'agent autonome.

Recherche vs Réalité

Les experts notent que les LLM excellent dans les tâches orientées vers la recherche mais trébuchent lors de l'exécution des transactions. Azhang a souligné que les modèles peinent à évaluer correctement l'importance d'innombrables variables de marché, des notes d'analystes aux activités de délit d'initié, menant à des paris mal timés et mal dimensionnés. Cela s'est manifesté par le développement de « personnalités » distinctes chez les modèles — Claude aurait favorisé les positions longues, tandis que Gemini n'a pas hésité à shorter des actions.

Cette force analytique a été validée dans un test de référence distinct par Intelligent Alpha. Dans cette étude, qui portait sur la prédiction de la direction des révisions d'estimations de bénéfices, le ChatGPT d'OpenAI a atteint un taux de précision de 68 % pour le quatrième trimestre 2025. Cela suggère que les LLM sont des outils d'analyse puissants capables de soutenir la prise de décision humaine, même s'ils ne peuvent pas encore être dignes de confiance pour gérer un portefeuille seuls.

Le problème de la preuve des profits

Évaluer la capacité de trading de l'IA est compliqué par une faille méthodologique fondamentale connue sous le nom de « biais de survie » ou « biais d'anticipation » (lookahead bias). Un modèle testé sur des données de marché de 2020 en l'année 2026 « connaît » déjà le résultat, rendant les backtests historiques inutiles. Cela a forcé les chercheurs à utiliser des compétitions en direct comme Alpha Arena pour une évaluation authentique, bien que celles-ci aient leurs propres limites.

Jim Moran, ancien cofondateur de YipitData qui écrit aujourd'hui le blog Flat Circle, a soutenu que la plupart des expériences publiques sont trop courtes et parasitées pour en tirer des conclusions fermes. De plus, Alexander Izydorczyk, anciennement chez Coatue Management, a noté qu'aucun des bots de trading IA qu'il suit n'a démontré de rendements excédentaires persistants, probablement parce qu'ils manquent des techniques quantitatives propriétaires utilisées par les grands hedge funds. Comme l'a écrit Izydorczyk sur son blog : « Quand une stratégie de trading par agent LLM commence vraiment à fonctionner, vous n'en entendrez pas parler tout de suite. »

Nof1 prévoit de lancer une deuxième saison d'Alpha Arena, en donnant aux IA plus de données et de capacités. Cependant, le cœur de métier de la firme est de fournir des outils aux traders particuliers pour construire leurs propres agents IA, et non de déployer des fonds autonomes. Ce modèle d'affaires sert lui-même de reconnaissance pragmatique de l'état actuel de l'IA : c'est un outil puissant, mais pour l'instant, il a encore besoin d'un humain dans la boucle.

Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.