La inferencia impulsará el 70% de la demanda de GPU para 2026
El mercado de la computación de IA está experimentando un cambio estructural, creando un papel distintivo para las redes de infraestructura física descentralizadas (DePIN). Si bien el entrenamiento de modelos de IA de vanguardia sigue concentrado en los centros de datos a hiperescala, la industria ha alcanzado un “punto de inflexión de la inferencia”, según Nökkvi Dan Ellidason, CEO de Ovia Systems. Tan recientemente como en 2024, el entrenamiento dominaba el uso de GPU, pero para 2026, se estima que el 70% de la demanda será impulsada por la inferencia, los agentes de IA y las cargas de trabajo de predicción. Este giro transforma la computación de IA de un costo de investigación masivo y único en un gasto de utilidad continuo y escalable, creando una oportunidad para soluciones de procesamiento más económicas.
Las redes descentralizadas ofrecen cargas de trabajo de IA rentables
El entrenamiento de IA de vanguardia requiere miles de GPU que operen en una sincronización perfecta y de baja latencia, una configuración que solo es posible en instalaciones centralizadas estrechamente integradas. Meta, por ejemplo, utilizó un clúster de más de 100,000 GPU Nvidia H100 para entrenar su modelo Llama 4. Ellidason lo compara con la construcción de un rascacielos donde los trabajadores se pasan los ladrillos a mano en el mismo andamio. Intentar esto a través de una red descentralizada sería como enviar cada ladrillo individualmente por correo, lo que lo haría muy ineficiente. Sin embargo, las cargas de trabajo de inferencia son diferentes. Pueden dividirse en tareas más pequeñas e independientes, lo que las hace ideales para redes distribuidas.
La inferencia es el negocio de volumen, y escala con cada modelo implementado y ciclo de agente. Ahí es donde el costo, la elasticidad y la dispersión geográfica importan más que las interconexiones perfectas.
— Evgeny Ponomarev, cofundador de Fluence
Esto hace que las redes descentralizadas que utilizan GPU de consumo sean una mejor opción para las tareas de IA de producción que priorizan el rendimiento y la flexibilidad. Según Bob Miles, CEO de Salad Technologies, estas redes sobresalen en el rendimiento de precios para cargas de trabajo sensibles a los costos como el descubrimiento de fármacos con IA, el procesamiento de datos a gran escala y la generación de texto a imagen. Además, una red distribuida globalmente puede reducir la latencia para los usuarios finales al procesar las solicitudes más cerca de su ubicación geográfica, evitando múltiples saltos a un centro de datos distante.
Las GPU de consumo emergen como una capa de IA complementaria
Las redes de GPU descentralizadas no están reemplazando a los hiperescaladores, sino que están labrándose un papel como una capa complementaria vital en la pila tecnológica de la IA. A medida que los modelos de código abierto se vuelven más eficientes y el hardware de consumo como las Nvidia RTX 4090 o 5090 se vuelve más potente, una gama más amplia de tareas de IA puede ejecutarse fuera de los centros de datos centralizados. Esto permite a los usuarios minoristas y a los operadores más pequeños contribuir con sus recursos de GPU inactivos a la red.
Esta dinámica posiciona a las plataformas descentralizadas para absorber una parte creciente del mercado de la IA centrado en la inferencia y otros trabajos paralelizables. Proporcionan una alternativa rentable y geográficamente distribuida para un segmento significativo y en expansión de la computación de IA, democratizando efectivamente el acceso a la potencia de procesamiento más allá del puñado de gigantes tecnológicos que dominan el entrenamiento de modelos a gran escala.