Le nouveau modèle Gemini 3.5 Flash de Google vise à redéfinir la frontière de l'efficacité de l'IA, mais une nouvelle startup pourrait l'avoir déjà surpassé sur le plan des coûts.
Le nouveau modèle Gemini 3.5 Flash de Google vise à redéfinir la frontière de l'efficacité de l'IA, mais une nouvelle startup pourrait l'avoir déjà surpassé sur le plan des coûts.

Google intensifie la course aux armements de l'IA en mettant l'accent sur la vitesse et la puissance créative, en annonçant lors de sa conférence I/O 2026 le modèle Gemini 3.5 Flash et un nouveau générateur de vidéo, Gemini Omni. Cette initiative intervient alors que l'entreprise s'efforce de défendre son territoire contre OpenAI et Anthropic, tandis que de nouveaux concurrents hautement efficaces émergent pour défier la structure des coûts de l'industrie.
« Cela représente un bond en avant majeur dans la construction d'agents plus capables et intelligents », a déclaré Google à propos de la nouvelle famille de modèles 3.5 dans son annonce. L'entreprise affirme que Gemini 3.5 Flash atteint des performances de premier plan tout en maintenant la vitesse élevée nécessaire aux flux de travail des agents et au service des équipes de sous-agents, ciblant directement le besoin du marché des entreprises pour une IA évolutive.
Ces annonces font partie d'une vaste offensive visant à intégrer Gemini dans l'écosystème de Google, qui sert désormais plus de 900 millions d'utilisateurs mensuels, contre 400 millions l'année précédente. Parallèlement aux nouveaux modèles, Google a révélé une application Gemini rafraîchie et « Daily Brief », une fonctionnalité d'IA proactive pour les abonnés qui analyse la boîte de réception et le calendrier d'un utilisateur pour organiser sa journée.
L'enjeu est le leadership dans un secteur technologique défini par un rythme d'innovation incessant et des coûts de capital immenses. Alors que les nouveaux modèles de Google visent à équilibrer performance et vitesse, l'émergence de modèles hyper-efficaces de la part de plus petits acteurs remet en question l'économie à long terme pour les clients entreprises, déplaçant potentiellement la base de la concurrence de la pure capacité vers le coût par requête.
Gemini 3.5 Flash est positionné comme le modèle le plus rapide et le plus rentable de Google à ce jour, conçu pour être le modèle par défaut dans nombre de ses services. L'entreprise affirme qu'il surpasse son prédécesseur, Gemini 3.1 Pro, sur les principaux benchmarks de codage et d'agents sans compromettre l'intelligence. Le modèle est disponible immédiatement dans l'application Gemini et via le mode IA de Google Search, avec une version Gemini 3.5 Pro plus puissante prévue pour le mois prochain.
L'annonce la plus surprenante a été celle de Gemini Omni, un modèle multimodal qui génère de la vidéo à partir de n'importe quelle combinaison d'entrées, y compris du texte, des images, de l'audio et d'autres vidéos. Cela va un pas plus loin que le précédent modèle texte-vidéo de Google, Veo 3, en permettant aux utilisateurs d'éditer et de transformer des médias existants grâce à des invites conversationnelles. Omni sera disponible pour les abonnés Google AI dans l'application Gemini et Google Flow, et sera proposé gratuitement aux créateurs de YouTube Shorts. Pour répondre aux préoccupations de sécurité, Google intègre des filigranes numériques SynthID dans toutes les vidéos générées par Omni.
Au moment même où Google détaillait sa prochaine génération de modèles, Perceptron Inc., une startup de deux ans, pourrait avoir déjà redéfini la frontière de l'efficacité. L'entreprise a lancé son modèle phare d'analyse vidéo, Mk1, à un prix d'API inférieur de 80 à 90 % à celui des modèles phares de la génération actuelle de Google, OpenAI et Anthropic.
Le Mk1 de Perceptron est proposé à seulement 0,15 $ par million de tokens d'entrée et 1,50 $ par million de tokens de sortie. Selon les benchmarks de l'entreprise, il égale ou dépasse les performances de modèles tels que Gemini 3.1 Pro et GPT-5 sur des tâches clés de vidéo et de raisonnement spatial. Sur le VSI-Bench pour le raisonnement temporel, Mk1 a obtenu un score de 88,5, le plus élevé parmi les modèles comparés. Cette combinaison de hautes performances à un coût radicalement inférieur cible directement les marchés industriels et des entreprises pour des applications telles que la robotique, la sécurité et le contrôle qualité.
L'existence d'un concurrent comme Perceptron souligne un défi critique pour les acteurs établis comme Google. Alors que les modèles de pointe font la une des journaux, la bataille pour l'adoption généralisée par les entreprises pourrait être remportée par le fournisseur capable de livrer une intelligence « assez bonne » au coût d'inférence le plus bas possible. Pour les investisseurs, le paysage passe d'une course à la performance pure à une équation plus complexe où l'efficacité et l'accessibilité sont tout aussi critiques, impactant la valorisation et le potentiel de revenus de l'ensemble du secteur de l'IA.
Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.