La startup de robotique Physical Intelligence est en discussion pour une nouvelle levée de fonds qui valoriserait l'entreprise à près de 11 milliards de dollars, soit presque le double de sa valorisation précédente, suite à une percée de la recherche dans laquelle son nouveau modèle d'IA a dirigé un robot pour effectuer des tâches pour lesquelles il n'avait jamais été formé. Le nouveau modèle de cette entreprise de deux ans, le π0.7, démontre ce qu'elle appelle la « généralisation compositionnelle », une capacité longtemps recherchée qui permet à un robot de combiner des compétences apprises dans différents contextes pour résoudre de nouveaux problèmes, une étape significative vers un cerveau robotique polyvalent.
« Une fois qu'il a franchi ce seuil où il passe du simple fait de faire exactement ce pour quoi vous avez collecté les données à celui de remixer réellement les choses de nouvelles manières, les capacités augmentent de manière plus que linéaire avec la quantité de données », a déclaré Sergey Levine, co-fondateur de Physical Intelligence et professeur à l'UC Berkeley. Il a noté que cette propriété de mise à l'échelle a été observée dans d'autres domaines de l'IA comme le langage et la vision, suggérant que le domaine de la robotique pourrait se trouver à un point d'inflexion similaire.
L'affirmation centrale porte sur la capacité du modèle à synthétiser des informations fragmentées. Lors d'une démonstration clé, le π0.7 a permis à un robot d'utiliser une friteuse à air pour cuire une patate douce, alors que les données d'entraînement ne contenaient que deux épisodes brefs et sans rapport impliquant l'appareil. Le modèle a égalé les performances de modèles spécialisés à tâche unique dans des corvées complexes comme la préparation du café et le pliage du linge. Physical Intelligence a levé plus d'un milliard de dollars à ce jour et sa dernière valorisation était de 5,6 milliards de dollars.
Cette avancée technologique pourrait accélérer la commercialisation des robots polyvalents, perturbant potentiellement les industries de la fabrication à la logistique. Pour les investisseurs, cela signale un développement majeur dans le secteur de l'IA et de la robotique qui pourrait stimuler de nouveaux investissements et des activités de fusions-acquisitions. Cependant, l'entreprise a catégoriquement refusé de proposer un calendrier de commercialisation, une position qui n'a pas découragé les investisseurs, en partie grâce au pedigree du co-fondateur Lachy Groom, un ancien investisseur providentiel très respecté qui a soutenu des entreprises comme Figma et Notion.
De la mémorisation par cœur aux « licornes au Pérou »
La percée avec le π0.7 marque une rupture avec le paradigme standard d'entraînement en robotique, qui repose sur la collecte d'ensembles de données massifs pour chaque tâche spécifique — une forme de mémorisation par cœur. En parvenant à la généralisation compositionnelle, le modèle peut déduire comment effectuer une nouvelle tâche en combinant des connaissances antérieures apparemment sans rapport. Levine a comparé ces résultats surprenants au moment où les chercheurs ont vu pour la première fois le modèle de langage GPT-2 générer une histoire sur des licornes dans les Andes, une combinaison étrange qu'on ne lui avait jamais explicitement enseignée.
« Mon expérience a toujours été que lorsque je sais précisément ce qu'il y a dans les données, je peux en quelque sorte deviner ce que le modèle sera capable de faire », a déclaré Ashwin Balakrishna, chercheur chez Physical Intelligence. « Je suis rarement surpris. Mais ces derniers mois ont été la première fois où j'ai été véritablement surpris. »
L'équipe de recherche reste franche sur les limites actuelles du modèle. Il ne peut pas encore exécuter des tâches complexes à plusieurs étapes à partir d'une seule commande de haut niveau comme « fais-moi un toast ». Cependant, il excelle lorsqu'il est guidé par des instructions verbales étape par étape, ce qui suggère que des robots pourraient être déployés dans de nouveaux environnements et formés sur place par des travailleurs humains sans avoir besoin d'être réentraînés. Dans une expérience, le taux de réussite pour la tâche de la friteuse à air est passé de 5 % à 95 % après que les chercheurs ont passé 30 minutes à affiner les instructions.
La question à 11 milliards de dollars
Bien que la recherche soit présentée avec précaution, décrivant des « signes précoces » de généralisation, les implications financières sont plus immédiates. Les discussions rapportées pour un nouveau cycle de financement valorisant Physical Intelligence à près de 11 milliards de dollars soulignent l'appétit intense des investisseurs pour les entreprises montrant des avancées fondamentales en IA. Cette valorisation est particulièrement notable pour une entreprise qui ne s'est pas engagée sur un calendrier de déploiement de produits.
Levine a rejeté les critiques potentielles selon lesquelles les tâches démontrées sont « ennuyeuses » par rapport aux vidéos virales de robots faisant des saltos arrière. Il a fait valoir que la généralisation paraîtra toujours moins spectaculaire qu'une cascade soigneusement chorégraphiée, mais qu'elle est considérablement plus utile et représente la véritable frontière technologique. La capacité de l'entreprise à attirer des capitaux institutionnels de premier plan sans voie claire vers les revenus repose sur la conviction que résoudre la généralisation robotique est un prix où le gagnant emporte tout.
Interrogé sur un calendrier de déploiement dans le monde réel, Levine a refusé de spéculer mais a déclaré que les progrès sont « plus rapides que ce que je prévoyais il y a quelques années ». Pour les investisseurs, le pari ne porte pas sur un produit spécifique mais sur l'idée que Physical Intelligence construit le « cerveau » fondamental qui pourrait un jour alimenter une vaste gamme de systèmes robotiques à travers l'économie.
Cet article est à titre informatif uniquement et ne constitue pas un conseil en investissement.