Google divise pour la première fois ses puces d'IA personnalisées en deux lignes distinctes, une réponse directe à l'évolution de l'industrie qui s'éloigne du simple entraînement de modèles pour se tourner vers le processus plus intensif en calcul de leur exécution (inférence). Les nouvelles unités de traitement de tenseurs (TPU) de huitième génération de l'entreprise, annoncées lors de sa conférence Cloud Next, comprennent une puce puissante pour l'entraînement et une puce séparée, plus efficace pour l'inférence, une initiative qui défie la domination de Nvidia Corp. sur le marché du matériel d'IA.
« La décision de créer deux nouvelles puces était une "évolution naturelle" », a déclaré Thomas Kurian, PDG de Google Cloud, aux journalistes, ajoutant que les nouvelles puces ont été conçues pour l'efficacité énergétique. « Nous avons estimé que l'efficacité énergétique deviendrait une contrainte à mesure que les gens continuent de mettre à l'échelle tant l'entraînement que l'inférence. »
La nouvelle gamme comprend le TPU 8t, conçu pour le processus intensif d'entraînement de modèles d'IA à grande échelle, et le TPU 8i, optimisé pour la tâche moins intensive mais plus volumineuse de l'inférence — l'exécution des modèles pour générer des réponses ou effectuer des actions. Google a déclaré que les deux puces, qui représentent un bond significatif par rapport au TPU Ironwood de septième génération de l'année dernière, seront généralement disponibles plus tard cette année. Le TPU 8i présente notamment une augmentation importante de la mémoire à haute bande passante (HBM), s'attaquant au « mur de la mémoire » qui peut ralentir les applications d'IA agentique.
Cette séparation stratégique est le pari de Google selon lequel la prochaine vague majeure de l'intelligence artificielle sera celle des « agents » — des systèmes d'IA autonomes capables de raisonner, de planifier et d'exécuter des tâches multi-étapes au nom d'un utilisateur. « L'IA évolue, passant de la réponse à des questions au raisonnement et à l'action », ont déclaré Amin Vahadat et Mark Lohmeyer, responsables de l'infrastructure de Google, dans un article de blog. Ce changement nécessite une quantité massive de calcul d'inférence, un segment de marché que Nvidia cible également avec de nouvelles puces et des accords de licence.
Pour accélérer ce virage agentique, Google a également lancé la Gemini Enterprise Agent Platform, un système unifié pour construire et gérer des agents d'IA, soutenu par un nouveau fonds de 750 millions de dollars pour aider ses partenaires, notamment Accenture, Deloitte et Oracle, à construire et déployer ces solutions. La plateforme offre un accès à plus de 200 modèles d'IA, y compris la famille Gemini de Google et des modèles tiers de sociétés comme Anthropic, qui est un client majeur des TPU de Google Cloud.
L'initiative de construire des puces internes plus performantes pourrait avoir des implications financières importantes. Le chiffre d'affaires de Google Cloud a bondi de 48 % pour atteindre 17,7 milliards de dollars au quatrième trimestre 2025, alimenté par la demande d'IA. En développant des puces personnalisées capables de réduire sa dépendance à l'égard de Nvidia, Google peut potentiellement réduire ses coûts et améliorer ses marges. Morgan Stanley a estimé dans une note de décembre que la vente de 500 000 puces TPU pourrait ajouter environ 13 milliards de dollars de revenus au bilan de Google en 2027.
Les nouvelles puces font partie d'un ensemble plus large d'annonces visant à créer une pile technologique complète et prête pour les agents. Cela inclut l'« Agentic Data Cloud », une architecture de données native pour l'IA, et de nouvelles solutions de cybersécurité alimentées par l'IA développées avec sa récente acquisition, Wiz. En contrôlant l'ensemble de la pile, du matériel personnalisé à la plateforme de création d'agents, Google fait un pari fort pour devenir le fournisseur d'infrastructure de base pour la prochaine ère de l'IA.
Cet article est uniquement à titre informatif et ne constitue pas un conseil en investissement.