Tether publica TurboQuant como código abierto, reduciendo el uso de memoria de IA en 5x

El Grupo de Investigación de IA de Tether lanzó el lunes una implementación de código abierto de TurboQuant, un algoritmo de Google Research que comprime la caché clave-valor —la memoria de trabajo que los modelos transformadores utilizan para rastrear el contexto— hasta en 5x sin necesidad de reentrenar o ajustar modelos existentes, lo que hace viable ejecutar IA capaz en laptops, teléfonos y dispositivos de borde en lugar de encaminar cada tarea a través de centros de datos en la nube.

"Si la IA de contexto largo solo funciona dentro de los centros de datos más grandes, entonces la IA será moldeada por quien posea más hardware", declaró Paolo Ardoino, director ejecutivo de Tether, en un comunicado. "TurboQuant cambia lo que la IA local puede lograr al hacer que la memoria deje de ser un muro".

La caché KV es el cuello de botella que fuerza las sesiones largas de IA hacia la nube. Con aproximadamente 262,000 tokens —el equivalente a varias horas de conversación o unos cientos de páginas de texto—, la caché KV para un modelo de 4 mil millones de parámetros consume por sí sola unos 8 gigabytes de memoria. Cuatro sesiones simultáneas de esa longitud llevan la caché más allá de los 32 GB sin contar los pesos del modelo. TurboQuant comprime esa huella a aproximadamente 1.6 GB por sesión, o 6.4 GB para cuatro, llevando el total al alcance de hardware de consumo con 16 GB a 32 GB de memoria unificada.

El lanzamiento forma parte de QVAC SDK 0.12.0, la plataforma más amplia de Tether para IA descentralizada, que también añadió capacidades de generación de texto a video y control robótico en la misma actualización. El SDK incluye un pipeline completo de cuantización, adaptadores para frameworks de inferencia comunes, documentación y perfiles de despliegue ajustados por carga de trabajo. Los desarrolladores pueden aplicar TurboQuant a modelos existentes sin empezar desde cero —sin necesidad de reentrenamiento o ajuste fino.

Por qué la memoria importa en la pila de IA

La restricción de memoria ha sido una de las barreras estructurales que mantienen las cargas de trabajo de IA concentradas en centros de datos de hiperescala. Un modelo que necesita 16 GB de memoria de trabajo solo para su caché KV no puede ejecutarse en una MacBook Air o en un teléfono Android de gama media. Reducir eso a 3.2 GB cambia por completo las matemáticas del despliegue, abriendo la puerta a asistentes en el dispositivo que pueden procesar documentos de cien páginas, retener el contexto completo del proyecto y manejar datos privados localmente.

La implementación de Tether se basa en varias técnicas de compresión previas que la empresa ha apilado en QVAC, incluyendo PolarQuant y Quantized Johnson-Lindenstrauss. Cada una apunta a una parte diferente del problema de eficiencia. TurboQuant es la capa más reciente, adaptada de un artículo de Google Research publicado el 24 de marzo.

La naturaleza de código abierto del lanzamiento es una jugada estratégica para hacer crecer el ecosistema en torno a QVAC y posicionar la plataforma de Tether como el conjunto de herramientas predeterminado para la IA descentralizada. Cualquier desarrollador puede tomar el código e integrarlo en su pipeline de inferencia de inmediato. Esto sitúa a Tether en competencia directa con frameworks de IA local establecidos como llama.cpp y Ollama, así como con proveedores de nube cuyos modelos de negocio dependen de enrutar la inferencia a través de sus centros de datos.

Lo que esto significa para los inversores

Tether, conocida principalmente como la emisora de la stablecoin USDT de 140 mil millones de dólares, se ha estado expandiendo agresivamente hacia la infraestructura de IA. La tesis de la empresa es que la próxima fase de la IA estará definida por la eficiencia del software y la portabilidad, más que por la escala bruta de cómputo. Si la afirmación de compresión 5x de TurboQuant se mantiene en diferentes arquitecturas de modelo y longitudes de contexto —aún no se han publicado evaluaciones comparativas independientes— podría acelerar el traslado de las cargas de trabajo de inferencia desde los servicios centralizados en la nube hacia los dispositivos locales, potencialmente comprimiendo el crecimiento de ingresos para los proveedores de GPU en la nube, al tiempo que expande el mercado direccionable para el hardware de IA de borde.

Este artículo es solo para fines informativos y no constituye asesoramiento de inversión.