Tether publie TurboQuant en open source, réduisant de 5 fois la consommation mémoire de l'IA

Le groupe de recherche en IA de Tether a publié lundi une implémentation open source de TurboQuant, un algorithme de Google Research qui comprime le cache clé-valeur — la mémoire de travail utilisée par les modèles de transformeurs pour suivre le contexte — jusqu'à 5x sans réentraînement ni ajustement des modèles existants, rendant ainsi possible l'exécution d'une IA performante sur des ordinateurs portables, téléphones et appareils de périphérie, plutôt que d'acheminer chaque tâche via des centres de données cloud.

« Si une IA à contexte long ne fonctionne que dans les plus grands centres de données, alors l'IA sera façonnée par celui qui possède le plus de matériel », a déclaré Paolo Ardoino, directeur général de Tether, dans un communiqué. « TurboQuant change ce que l'IA locale peut accomplir en faisant de la mémoire un obstacle moins infranchissable. »

Le cache KV est le goulot d'étranglement qui force les longues sessions d'IA à passer par le cloud. À environ 262 000 tokens — l'équivalent de plusieurs heures de conversation ou de quelques centaines de pages de texte — le cache KV pour un modèle de 4 milliards de paramètres consomme à lui seul environ 8 gigaoctets de mémoire. Quatre sessions simultanées à cette longueur poussent le cache au-delà de 32 Go avant même de prendre en compte les poids du modèle. TurboQuant réduit cette empreinte à environ 1,6 Go par session, soit 6,4 Go pour quatre sessions, ramenant le total à portée du matériel grand public doté de 16 à 32 Go de mémoire unifiée.

Cette publication fait partie de QVAC SDK 0.12.0, la plateforme plus large de Tether pour l'IA décentralisée, qui a également ajouté dans la même mise à jour des capacités de génération texte-vers-vidéo et de contrôle de robots. Le SDK comprend un pipeline de quantification complet, des adaptateurs pour les cadres d'inférence courants, de la documentation et des profils de déploiement optimisés par charge de travail. Les développeurs peuvent appliquer TurboQuant aux modèles existants sans repartir de zéro — aucun réentraînement ni ajustement n'est nécessaire.

Pourquoi la mémoire est cruciale pour la pile IA

La contrainte de mémoire a été l'un des obstacles structurels qui maintient les charges de travail d'IA concentrées dans les centres de données hyperscale. Un modèle nécessitant 16 Go de mémoire de travail pour son seul cache KV ne peut pas fonctionner sur un MacBook Air ou un téléphone Android de milieu de gamme. Réduire cela à 3,2 Go change complètement l'équation du déploiement, ouvrant la voie à des assistants intégrés capables de traiter des documents de centaines de pages, de conserver l'intégralité du contexte d'un projet et de gérer les données privées localement.

L'implémentation de Tether s'appuie sur plusieurs techniques de compression antérieures que l'entreprise a intégrées dans QVAC, notamment PolarQuant et Quantized Johnson-Lindenstrauss. Chacune cible un aspect différent du problème d'efficacité. TurboQuant est la dernière couche, adaptée d'un article de Google Research publié le 24 mars.

La nature open source de cette publication est un geste stratégique visant à développer l'écosystème autour de QVAC et à positionner la plateforme de Tether comme la boîte à outils par défaut pour l'IA décentralisée. Tout développeur peut récupérer le code et l'intégrer immédiatement dans son pipeline d'inférence. Cela place Tether en concurrence directe avec les cadres d'IA locaux établis comme llama.cpp et Ollama, ainsi qu'avec les fournisseurs de cloud dont les modèles économiques dépendent de l'acheminement de l'inférence via leurs centres de données.

Ce que cela signifie pour les investisseurs

Tether, principalement connu comme l'émetteur du stablecoin USDT de 140 milliards de dollars, s'est développé de manière agressive dans l'infrastructure IA. La thèse de l'entreprise est que la prochaine phase de l'IA sera définie par l'efficacité logicielle et la portabilité plutôt que par l'échelle brute du calcul. Si l'affirmation de compression 5x de TurboQuant se vérifie sur différentes architectures de modèles et longueurs de contexte — des benchmarks indépendants n'ont pas encore été publiés — cela pourrait accélérer le transfert des charges de travail d'inférence des services cloud centralisés vers les appareils locaux, ce qui pourrait comprimer la croissance des revenus des fournisseurs de GPU cloud tout en élargissant le marché adressable du matériel d'IA de périphérie.

Cet article est fourni à titre informatif uniquement et ne constitue pas un conseil en investissement.