AI 추론 전환, 분산형 GPU에 컴퓨팅 시장의 70% 개방

2026년까지 GPU 수요의 70%를 추론이 견인

AI 컴퓨팅 시장은 구조적 변화를 겪고 있으며, 분산형 물리적 인프라 네트워크(DePIN)에 독특한 역할을 부여하고 있습니다. 최첨단 AI 모델 훈련이 하이퍼스케일 데이터 센터에 집중되어 있는 반면, Ovia Systems의 CEO인 Nökkvi Dan Ellidason에 따르면 업계는 "추론 전환점"에 도달했습니다. 2024년까지만 해도 훈련이 GPU 사용을 지배했지만, 2026년에는 수요의 약 70%가 추론, AI 에이전트 및 예측 워크로드에 의해 주도될 것으로 예상됩니다. 이러한 전환은 AI 컴퓨팅을 막대한 일회성 연구 비용에서 지속적으로 확장되는 유틸리티 비용으로 변화시키며, 더 경제적인 처리 솔루션을 위한 기회를 창출합니다.

분산형 네트워크, 비용 효율적인 AI 워크로드 제공

최첨단 AI 훈련은 완벽하고 낮은 지연 시간으로 동기화하여 작동하는 수천 개의 GPU를 필요로 합니다. 이는 긴밀하게 통합된 중앙 집중식 시설에서만 가능한 설정입니다. 예를 들어, Meta는 Llama 4 모델을 훈련하기 위해 100,000개 이상의 Nvidia H100 GPU 클러스터를 사용했습니다. Ellidason은 이를 노동자들이 같은 비계 위에서 손으로 벽돌을 전달하며 고층 빌딩을 짓는 것에 비유합니다. 분산형 네트워크를 통해 이를 시도하는 것은 각 벽돌을 개별적으로 우편으로 보내는 것과 같아 매우 비효율적입니다. 그러나 추론 워크로드는 다릅니다. 이들은 더 작고 독립적인 작업으로 분할될 수 있으므로 분산형 네트워크에 이상적입니다.

추론은 볼륨 비즈니스이며, 배포된 모든 모델과 에이전트 루프에 따라 확장됩니다. 이곳에서는 완벽한 상호 연결보다 비용, 탄력성 및 지리적 확산이 더 중요합니다.

— Fluence 공동 창립자 Evgeny Ponomarev

이는 소비자 등급 GPU를 사용하는 분산형 네트워크가 처리량과 유연성을 우선시하는 생산 AI 작업에 더 적합하게 만듭니다. Salad Technologies의 CEO인 Bob Miles에 따르면, 이러한 네트워크는 AI 신약 개발, 대규모 데이터 처리 및 텍스트-이미지 생성과 같은 비용에 민감한 워크로드에서 가격 대비 성능이 뛰어납니다. 또한, 전 세계적으로 분산된 네트워크는 요청을 사용자의 지리적 위치에 더 가깝게 처리함으로써 최종 사용자의 지연 시간을 줄여 멀리 떨어진 데이터 센터로의 여러 홉을 피할 수 있습니다.

소비자 GPU, 보완적인 AI 계층으로 부상

분산형 GPU 네트워크는 하이퍼스케일러를 대체하는 것이 아니라 AI 기술 스택에서 필수적이고 보완적인 계층으로 자리 잡고 있습니다. 오픈 소스 모델이 더욱 효율적으로 변하고 Nvidia의 RTX 4090 또는 5090과 같은 소비자 하드웨어가 더욱 강력해짐에 따라, 더 광범위한 AI 작업을 중앙 집중식 데이터 센터 외부에서 실행할 수 있습니다. 이를 통해 일반 사용자 및 소규모 운영자는 유휴 GPU 리소스를 네트워크에 기여할 수 있습니다.

이러한 역동성은 분산형 플랫폼이 추론 및 기타 병렬화 가능한 작업에 중점을 둔 AI 시장의 성장하는 점유율을 흡수할 수 있도록 합니다. 이들은 AI 컴퓨팅의 중요하고 확장되는 부문에 대해 비용 효율적이고 지리적으로 분산된 대안을 제공하여, 대규모 모델 훈련을 지배하는 소수의 거대 기술 기업을 넘어 처리 능력에 대한 접근을 효과적으로 민주화합니다.