Los modelos de IA reducen los errores en un 26% con nuevas herramientas de fiabilidad

Los modelos de inteligencia artificial que impulsan los servicios de Google, OpenAI y Anthropic se están volviendo más fiables mediante el uso de herramientas externas y datos verificados por humanos, un cambio que ha reducido los errores fácticos en un 26% en el modelo más reciente de OpenAI y que es crucial para la adopción empresarial. Esta evolución, destacada por una filtración involuntaria de Claude Code de Anthropic, muestra un alejamiento de la pura adivinación generativa hacia un enfoque más dependiente y asistido por herramientas.

"Donde Claude destaca sistemáticamente en las evaluaciones independientes es en lo que los investigadores llaman 'calibración': saber lo que no sabe y decirlo", afirmó un portavoz de Anthropic, al abordar el impulso de toda la industria para reducir las "alucinaciones" de la IA y aumentar la honestidad en las respuestas del modelo.

El impulso por la fiabilidad se centra en tres cambios fundamentales. Primero, los modelos se están entrenando con datos especializados seleccionados por expertos humanos remunerados, yendo más allá del contenido genérico de la web. Ahora también utilizan motores de búsqueda para obtener información actualizada. Las pruebas internas de OpenAI muestran que su modelo más reciente tiene un 26% menos de errores fácticos que su predecesor de hace dos años. Segundo, las IA ahora se integran con herramientas de software tradicionales, como calculadoras, para realizar razonamientos simbólicos en problemas matemáticos y de programación. Tercero, las empresas están utilizando un "consejo de modelos", donde la respuesta de una IA, como ChatGPT, es verificada por otra, como Claude, para asegurar la precisión antes de que se presente al usuario.

Este enfoque en la fiabilidad es una respuesta directa a las demandas de los clientes de una IA digna de confianza, lo cual es esencial para desplegar estos sistemas en entornos comerciales de alto riesgo como el análisis financiero y el diagnóstico médico. Para empresas como Alphabet (matriz de Google, GOOGL), OpenAI respaldada por Microsoft y Anthropic respaldada por Amazon, demostrar un camino claro hacia aplicaciones fiables y generadoras de ingresos podría impactar significativamente en sus valoraciones y acelerar la adopción en todo el sector tecnológico.

Un enfoque híbrido de la inteligencia

El código fuente filtrado de Claude Code de Anthropic reveló un sistema complejo que mezcla modelos de lenguaje extensos (LLM) con la programación tradicional. Según los investigadores de IA que analizaron el código, incluye sistemas dedicados a gestionar la memoria de conversación para evitar la sobrecarga de contexto, un problema conocido que puede aumentar las alucinaciones. Se encontró otro script para detectar la frustración del usuario mediante el escaneo de palabras malsonantes, lo que ilustra un enfoque en la experiencia del usuario junto con la precisión pura.

Este modelo híbrido desafía la noción de que los LLM por sí solos pueden lograr un razonamiento similar al humano. "Los propios LLM son más o menos tan poco fiables como siempre", dijo el investigador de IA Gary Marcus. Elogió sistemas como Claude Code por combinar la naturaleza probabilística de los LLM con la lógica determinista y rígida del código informático, una combinación que considera esencial para las aplicaciones prácticas.

El "Consejo de Modelos"

La práctica de utilizar múltiples IA para verificar el trabajo se está convirtiendo en un nuevo estándar de la industria para el control de calidad. Pavel Kirillov, director de tecnología de la consultora NineTwoThree, denomina a esto el "consejo de modelos". Afirma que al hacer que el resultado de la IA de un proveedor sea revisado por un modelo de una empresa diferente, la calidad y precisión del resultado final mejoran significativamente. Este método está siendo adoptado por firmas que construyen sistemas de IA especializados para clientes como FanDuel y Consumer Reports.

Por lo tanto, la mejora de los servicios de IA no proviene solo de modelos subyacentes más inteligentes, sino de una arquitectura más robusta que incorpora información más fresca, software tradicional y verificación cruzada. Aunque esta puede ser una realidad más mundana que la búsqueda de la superinteligencia artificial, es mucho más práctica y comercialmente viable. Los actores más grandes de la industria se han dado cuenta de que sus creaciones no pueden hacerlo todo solas y requieren las herramientas y el conocimiento perfeccionados por los humanos.

Este artículo tiene fines informativos únicamente y no constituye asesoramiento de inversión.