Les modèles d'IA affichent 26 % d'erreurs en moins grâce à de nouveaux outils de fiabilité

Les modèles d'intelligence artificielle qui alimentent les services de Google, OpenAI et Anthropic deviennent plus fiables grâce à l'utilisation d'outils externes et de données vérifiées par des humains, un changement qui a réduit les erreurs factuelles de 26 % dans le dernier modèle d'OpenAI et qui est crucial pour l'adoption par les entreprises. Cette évolution, mise en lumière par une fuite involontaire du code Claude d'Anthropic, montre un passage de la pure conjecture générative vers une approche assistée par des outils et plus fiable.

« Là où Claude se distingue systématiquement dans les évaluations indépendantes, c'est dans ce que les chercheurs appellent la "calibration" : savoir ce qu'il ne sait pas, et le dire », a déclaré un porte-parole d'Anthropic, évoquant l'effort de toute l'industrie pour réduire les « hallucinations » de l'IA et accroître l'honnêteté des réponses des modèles.

La quête de fiabilité s'articule autour de trois changements fondamentaux. Premièrement, les modèles sont entraînés sur des données spécialisées sélectionnées par des experts humains rémunérés, allant au-delà du contenu Web générique. Ils utilisent également désormais des moteurs de recherche pour récupérer des informations actuelles. Les tests internes d'OpenAI montrent que son tout nouveau modèle comporte 26 % d'erreurs factuelles de moins que son prédécesseur d'il y a deux ans. Deuxièmement, les IA sont désormais intégrées à des outils logiciels traditionnels, tels que des calculatrices, pour effectuer un raisonnement symbolique pour les problèmes de mathématiques et de codage. Troisièmement, les entreprises utilisent un « conseil de modèles », où une réponse d'une IA, comme ChatGPT, est vérifiée par une autre, comme Claude, pour garantir l'exactitude avant d'être présentée à l'utilisateur.

Cet accent mis sur la fiabilité est une réponse directe aux demandes des clients pour une IA digne de confiance, ce qui est essentiel pour déployer ces systèmes dans des environnements commerciaux à enjeux élevés tels que l'analyse financière et le diagnostic médical. Pour des entreprises comme Alphabet (parent de Google - GOOGL), OpenAI soutenu par Microsoft et Anthropic soutenu par Amazon, la démonstration d'une voie claire vers des applications fiables et génératrices de revenus pourrait avoir un impact significatif sur leur valorisation et accélérer l'adoption dans tout le secteur technologique.

Une approche hybride de l'intelligence

Le code source divulgué de Claude Code d'Anthropic a révélé un système complexe qui mélange les grands modèles de langage (LLM) avec la programmation traditionnelle. Selon les chercheurs en IA qui ont analysé le code, il comprend des systèmes dédiés à la gestion de la mémoire de conversation pour éviter la surcharge de contexte — un problème connu qui peut augmenter les hallucinations. Un autre script a été trouvé pour détecter la frustration des utilisateurs en recherchant des mots grossiers, illustrant une attention portée à l'expérience utilisateur parallèlement à la pure précision.

Ce modèle hybride remet en question l'idée que les LLM seuls peuvent parvenir à un raisonnement de type humain. « Les LLM eux-mêmes sont plus ou moins aussi peu fiables qu'ils l'ont toujours été », a déclaré le chercheur en IA Gary Marcus. Il a loué les systèmes comme Claude Code pour avoir combiné la nature probabiliste des LLM avec la logique déterministe et rigide du code informatique, une combinaison qu'il juge essentielle pour les applications pratiques.

Le « Conseil de modèles »

La pratique consistant à utiliser plusieurs IA pour vérifier le travail devient une nouvelle norme de l'industrie pour le contrôle de la qualité. Pavel Kirillov, directeur technologique de la société de conseil NineTwoThree, appelle cela le « conseil de modèles ». Il affirme qu'en faisant vérifier le résultat de l'IA d'un fournisseur par un modèle d'une autre entreprise, la qualité et l'exactitude du résultat final sont considérablement améliorées. Cette méthode est adoptée par des entreprises qui conçoivent des systèmes d'IA spécialisés pour des clients comme FanDuel et Consumer Reports.

L'amélioration des services d'IA ne provient donc pas seulement de modèles sous-jacents plus intelligents, mais d'une architecture plus robuste qui intègre des informations plus fraîches, des logiciels traditionnels et une vérification croisée. Bien qu'il s'agisse d'une réalité peut-être plus banale que la poursuite de la superintelligence artificielle, elle est beaucoup plus pratique et commercialement viable. Les plus grands acteurs de l'industrie ont réalisé que leurs créations ne peuvent pas tout faire seules et nécessitent les outils et les connaissances perfectionnés par les humains.

Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.