Los traders de IA pierden un 33% en una prueba de mercado, suspendiendo su 'entrevista' en Wall Street

Una ambiciosa competición que dio acceso a una cuenta de trading a ocho de los principales modelos de inteligencia artificial del mundo resultó en una pérdida colectiva de cartera de aproximadamente el 33%, una demostración palmaria de la brecha entre la destreza analítica de la IA y la agudeza comercial en el mundo real. El evento, organizado por la startup tecnológica Nof1, vio cómo solo seis de los 32 resultados posibles generaban beneficios, desafiando la narrativa de que los modelos de lenguaje extenso (LLM) están listos para los mercados financieros autónomos.

"No es el momento de dar dinero a un LLM y dejar que opere por su cuenta", dijo Jay Azhang, fundador de Nof1, en una evaluación contundente de los resultados. "Ese camino aún no es viable".

La competición Alpha Arena proporcionó a modelos como ChatGPT de OpenAI, Gemini de Google y Claude de Anthropic 10.000 dólares a cada uno a través de cuatro rondas independientes para operar con acciones tecnológicas estadounidenses durante periodos de dos semanas. El rendimiento no solo fue pobre, sino también sumamente inconsistente. En una ronda, el modelo Qwen de Alibaba ejecutó 1.418 operaciones, mientras que un modelo de xAI de Elon Musk, Grok 4.20, realizó solo 158 operaciones.

El resultado resalta una distinción crítica para la industria de la IA de 1,8 billones de dólares: la diferencia entre la investigación y la ejecución. Si bien los modelos de gigantes tecnológicos como Google y OpenAI pueden procesar vastas cantidades de datos, actualmente carecen de la comprensión matizada del tiempo de mercado, el tamaño de la posición y la gestión de riesgos esenciales para un trading rentable. Este fracaso sugiere que el impacto más inmediato de la IA en las finanzas será como copiloto para los traders humanos, no como un agente autónomo.

Investigación frente a realidad

Los expertos señalan que los LLM destacan en tareas orientadas a la investigación, pero fallan al ejecutar operaciones. Azhang señaló que los modelos tienen dificultades para sopesar adecuadamente la importancia de innumerables variables del mercado, desde las calificaciones de los analistas hasta la actividad de información privilegiada, lo que lleva a apuestas mal calculadas en tiempo y tamaño. Esto fue evidente en el desarrollo de "personalidades" distintas por parte de los modelos: según se informa, Claude favoreció las posiciones largas, mientras que Gemini no dudó en vender acciones en corto.

Esta fortaleza analítica fue validada en una prueba de referencia separada realizada por Intelligent Alpha. En ese estudio, que se centró en predecir la dirección de las revisiones de las estimaciones de beneficios, el ChatGPT de OpenAI logró una tasa de precisión del 68% para el cuarto trimestre de 2025. Esto sugiere que los LLM son herramientas poderosas para el análisis que pueden apoyar la toma de decisiones humana, incluso si todavía no se puede confiar en ellos para gestionar una cartera por sí solos.

El problema de demostrar beneficios

Evaluar la capacidad de trading de la IA se complica por un fallo metodológico fundamental conocido como "sesgo de anticipación" (lookahead bias). Un modelo probado con datos de mercado de 2020 en el año 2026 ya "conoce" el resultado, lo que hace que las pruebas retrospectivas (backtesting) históricas sean inútiles. Esto ha obligado a los investigadores a utilizar competiciones en vivo como Alpha Arena para una evaluación genuina, aunque estas tienen sus propias limitaciones.

Jim Moran, antiguo cofundador de YipitData que ahora escribe el blog Flat Circle, argumentó que la mayoría de los experimentos públicos son demasiado cortos y ruidosos para extraer conclusiones firmes. Además, Alexander Izydorczyk, anteriormente de Coatue Management, señaló que ninguno de los bots de trading de IA que sigue ha demostrado rendimientos excesivos persistentes, probablemente porque carecen de las técnicas cuantitativas patentadas utilizadas por los principales fondos de cobertura. Como escribió Izydorczyk en su blog: "Cuando una estrategia de trading de agentes LLM realmente comienza a funcionar, no te enterarás de inmediato".

Nof1 planea organizar una segunda temporada de Alpha Arena, dando a las IA más datos y capacidades. Sin embargo, el negocio principal de la firma es proporcionar herramientas para que los traders minoristas construyan sus propios agentes de IA, no desplegar fondos autónomos. Este modelo de negocio en sí mismo sirve como un reconocimiento pragmático del estado actual de la IA: es una herramienta poderosa, pero por ahora, todavía necesita a un humano en el proceso.

Este artículo tiene únicamente fines informativos y no constituye asesoramiento de inversión.