Baseten lève 1,5 milliard de dollars en pariant sur des modèles d'IA open source moins chers

La levée de fonds de 1,5 milliard de dollars de Baseten signale que les dépenses des entreprises en IA passent des modèles premium fermés aux alternatives open source moins coûteuses.

Baseten, une startup d'IA développant une infrastructure d'inférence pour les modèles open source, finalise une levée de fonds de 1,5 milliard de dollars à une valorisation allant jusqu'à 13 milliards de dollars, dernier pari en date que les entreprises vont déplacer leurs dépenses en IA des modèles premium fermés vers des alternatives moins coûteuses.

« Les modèles open source deviennent très, très performants », a déclaré Tuhin Srivastava, cofondateur et directeur général de Baseten. « Et à mesure que l'open source s'améliore, nous grandissons avec lui. »

Ce tour de table adopte une structure à deux niveaux, certains investisseurs participant à une valorisation de 11 milliards de dollars et d'autres à 13 milliards de dollars, selon l'entreprise. Altimeter Capital, Conviction, Spark Capital, Sands Capital et Wellington Management co-dirigent l'investissement — la première incursion de Wellington dans l'inférence IA. La couche logicielle de Baseten repose sur une capacité de calcul provenant de 20 fournisseurs cloud, offrant aux clients l'infrastructure nécessaire pour exécuter, optimiser et entraîner des modèles open source sans gérer le matériel.

Ce pari reflète un changement plus large du marché. L'écart de qualité entre les modèles open source et les modèles fermés est passé de deux ans en 2023 à quelques semaines seulement sur les principaux benchmarks d'ingénierie actuels, selon des tests indépendants. DeepSeek-V4, un modèle ouvert de 1 600 milliards de paramètres, coûte environ 87 cents par million de tokens de sortie — soit environ un trentième du prix des modèles de pointe d'OpenAI et d'Anthropic. Si les entreprises réorientent ne serait-ce qu'une fraction de leurs dépenses en IA vers des alternatives open source, les projections de revenus qui sous-tendent le développement des centres de données de plus de 200 milliards de dollars pourraient subir de sérieuses pressions.

La couche d'inférence devient un métier à part entière

Baseten fait partie d'un écosystème croissant de startups qui capitalisent sur l'essor de l'inférence — le processus par lequel les modèles d'IA utilisent la puissance de calcul pour répondre aux requêtes. Cerebras, qui a conçu des puces spécifiquement dédiées à l'inférence, est entré en bourse en mai et affiche désormais une capitalisation boursière de près de 50 milliards de dollars. Fireworks AI a levé des fonds en octobre à une valorisation de 4 milliards de dollars, et Factory, une startup développant des agents de codage autonomes, a atteint 1,5 milliard de dollars en avril.

Les aspects économiques favorisent l'adoption. Un client de Baseten a confié à Srivastava avoir réalisé une tâche spécifique à 30 % du coût exigé par un modèle fermé. La plupart des clients de Baseten utilisent un mélange de modèles ouverts et fermés, recourant aux systèmes de pointe uniquement pour les tâches nécessitant les meilleures performances absolues, tout en dirigeant les charges de travail courantes vers des alternatives moins coûteuses.

« Les modèles open source ont toujours quelques mois de retard sur les modèles de pointe, mais ils peuvent servir de nombreux cas d'usage tout en réservant une partie de l'utilisation des tokens pour les modèles les plus performants », a déclaré Oz Nur, investisseur chez Wellington Management.

L'offensive open source chinoise

Les modèles open source les plus populaires aujourd'hui proviennent de laboratoires chinois. Les séries V4 de DeepSeek et GLM-5.2 de Z.ai affichent des scores de benchmark qui rivalisent ou dépassent les principaux modèles américains sur les tâches d'ingénierie. GLM-5.2 a obtenu un score de 81,0 sur Terminal-Bench 2.1, contre 62 pour la version précédente publiée quelques semaines plus tôt. Il dispose d'une fenêtre de contexte d'un million de tokens et coûte environ un sixième du prix des principaux modèles fermés américains par token.

Les entreprises américaines tentent de rattraper leur retard. Nvidia a récemment lancé Nemotron, une famille de modèles open source, tandis que Meta continue de développer sa série Llama. Mais les laboratoires chinois itèrent plus rapidement — GLM est passé de la version 5.0 à 5.2 en quatre mois, chaque version étant entraînée sur du silicium domestique.

Le calcul des investisseurs

Pour les investisseurs, le calcul est simple. Le coût d'une sortie de classe GPT-4 est passé d'environ 20 dollars par million de tokens fin 2022 à environ 40 cents aujourd'hui — soit une baisse de près de mille fois. Cette déflation s'est interrompue cette année en raison de pénuries de mémoire, mais les nouvelles capacités des usines de production qui entrent en service pourraient relancer la tendance. Par ailleurs, le DGX Spark de Nvidia, une machine de bureau à 4 700 dollars dotée de 128 gigaoctets de mémoire unifiée, peut désormais exécuter localement des modèles allant jusqu'à 200 milliards de paramètres.

Si des modèles open source de niveau supérieur fonctionnent sur du matériel local abordable, la demande centralisée d'inférence qui justifie les amortissements sur cinq ans des GPU des centres de données pourrait croître plus lentement que prévu. Michael Burry a signalé environ 176 milliards de dollars d'amortissements sous-estimés dans l'ensemble du secteur d'ici 2028, et près de la moitié des projets de centres de données américains prévus pour 2026 font déjà face à des retards ou des annulations.

Parmi les clients de Baseten figurent Cursor, Mercor et OpenEvidence. The Information a précédemment rapporté cette levée de fonds.

Cet article est fourni à titre d'information uniquement et ne constitue pas un conseil en investissement.