Una IA de Google acaba de resolver problemas matemáticos que han desconcertado a los humanos durante décadas, pero el verdadero avance es cómo podría acabar con el problema de las alucinaciones de la IA de miles de millones de dólares.
Una IA de Google acaba de resolver problemas matemáticos que han desconcertado a los humanos durante décadas, pero el verdadero avance es cómo podría acabar con el problema de las alucinaciones de la IA de miles de millones de dólares.

AlphaProof Nexus de Google DeepMind, un sistema de IA que combina modelos de lenguaje extenso con la verificación formal de pruebas, ha resuelto 9 de los 353 problemas abiertos de Erdős y 44 de las 492 conjeturas abiertas de la Enciclopedia en línea de secuencias de números enteros. El avance, que costó solo unos pocos cientos de dólares por problema, demuestra una nueva frontera en la verificación formal impulsada por la IA que podría cambiar la forma en que se construye el software crítico.
"Las organizaciones deben tener precaución con el 'vibe coding' sin verificación, ya que los sistemas de IA se están moviendo rápidamente hacia entornos donde la corrección ya no es opcional", dijo Eve Bodina, fundadora y CEO de Logical Intelligence, un laboratorio de IA rival, en una declaración reciente. "Los puntos de referencia de razonamiento formal son cada vez más importantes porque obligan a los sistemas de IA a operar en entornos donde la corrección se impone matemáticamente".
Los resultados se documentaron en una prepublicación de arXiv (2605.22763v1) publicada el 21 de mayo de 2026. AlphaProof Nexus funciona generando una prueba matemática con un modelo de lenguaje extenso y luego utilizando el asistente de pruebas Lean para verificar la corrección de cada paso lógico. Este "bucle de agente" (agentic loop) itera sobre las pruebas propuestas hasta que se verifican formalmente, una respuesta directa al persistente problema de las alucinaciones de la IA que ha plagado la adopción empresarial.
Este desarrollo hace que la IA pase de generar texto que suena plausible a producir una lógica demostrablemente correcta. Las implicaciones se extienden mucho más allá del ámbito académico, amenazando con cambiar la economía de la auditoría de contratos inteligentes, el diseño de protocolos criptográficos y la generación de pruebas de conocimiento cero, campos donde un solo error lógico puede provocar pérdidas financieras catastróficas.
Google no es el único que utiliza la IA para abordar las matemáticas de frontera. OpenAI anunció recientemente que uno de sus modelos de propósito general refutó una conjetura central relacionada con el problema de la distancia unitaria plana de Erdős al encontrar un nuevo contraejemplo. Mientras que AlphaProof Nexus de DeepMind demostró que las conjeturas de hace décadas eran correctas, el modelo de OpenAI encontró una falla en una creencia matemática de larga data. Ambos logros, sin embargo, dependieron de matemáticos humanos de élite para verificar, refinar e interpretar el resultado de la IA, lo que apunta hacia una nueva división del trabajo entre humanos y máquinas.
Los diferentes enfoques resaltan una tendencia clave: la industria de la IA se está moviendo más allá de las puntuaciones de referencia y hacia la resolución de problemas abiertos donde no se conocen las respuestas. Este giro de las pruebas curadas a la investigación de frontera es un paso crítico para demostrar el valor de la IA como colaborador en ciencia e ingeniería, no solo como una herramienta de resumen. El desafío principal sigue siendo la confianza, ya que las alucinaciones generadas por la IA continúan apareciendo en los tribunales y en los artículos académicos.
La carrera por comercializar esta tecnología ya está en marcha. Logical Intelligence, un laboratorio de IA centrado en modelos de razonamiento basados en energía, anunció recientemente que su agente, Aleph, ha resuelto el 99,4 % del PutnamBench, un punto de referencia para la demostración de teoremas matemáticos avanzados. Este rendimiento supera significativamente a los sistemas de ByteDance y otros competidores.
Logical Intelligence ya está desplegando Aleph en flujos de trabajo de verificación de producción, incluido el trabajo con las bibliotecas criptográficas de la Fundación Ethereum. Esta transición de la prueba de concepto académica a la verificación de grado de producción para infraestructura crítica muestra que está surgiendo un nuevo mercado. Las empresas están construyendo IA no solo para generar código, sino para demostrar que es correcto antes de que llegue a un entorno de producción donde las fallas tienen consecuencias en el mundo real.
Para los inversores, la idea clave es que la capacidad de generar resultados demostrablemente correctos es un requisito fundamental para escalar la IA en sistemas de misión crítica. Este cambio aborda directamente la debilidad principal de los modelos generativos actuales: su tendencia a confabular bajo presión. Si bien el logro de Alphabet (GOOGL) con AlphaProof Nexus refuerza su liderazgo en la investigación de IA, la aparición de firmas especializadas como Logical Intelligence indica que se está construyendo una nueva capa de infraestructura para la "IA verificada". Esta tecnología será esencial para cualquier industria, desde las finanzas hasta la energía, que no pueda permitirse el lujo de equivocarse.
Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.