지푸 AI, 초당 400개 토큰 처리하는 새로운 API 출시로 속도 경쟁 가속화

지푸 AI(Zhipu AI)가 기업용 인공지능 속도 경쟁을 격화시키고 있습니다. GLM-5.1 모델을 위한 새로운 API를 출시하며 초당 400개 토큰 처리라는 상업용 거대 언어 모델 API의 새로운 이정표를 세웠습니다. 이러한 행보는 기존 업체들에 도전장을 내미는 동시에, 기업 도입의 핵심 요소로서 추론 성능에 대한 시장의 관심이 높아지고 있음을 보여줍니다.

회사는 성명을 통해 "GLM-5.1 고속 버전은 AI 프로그래밍, 실시간 상호작용, 비즈니스 의사결정과 같이 응답 지연 시간에 매우 엄격한 요구사항이 있는 시나리오를 위해 설계되었습니다"라고 밝혔습니다.

GLM-5.1-highspeed API는 우선 지푸의 MaaS 플랫폼을 이용하는 일부 기업 고객에게 제공됩니다. 초당 400개 토큰의 출력 속도는 실시간 음성 애플리케이션이나 자동화된 비즈니스 로직 등, 기존의 느린 대화형 모델로는 서비스하기 어려웠던 저지연 기업용 유스케이스를 정조준하고 있습니다.

이번 조치는 API 기반 추론의 새로운 성능 기준을 설정함으로써 글로벌 경쟁사들을 압박하고 있습니다. Kore.ai와 Cerebras 같은 기업들도 속도와 효율성의 한계를 밀어붙이고 있는 가운데, 초점은 단순한 모델 성능에서 생산 수준의 퍼포먼스로 옮겨가고 있으며, 이는 수십억 달러 규모의 기업 IT 인프라 AI 지출에 영향을 미치고 있습니다.

밀리초 단위의 치열한 경쟁

지푸의 발표는 고립된 사건이 아닙니다. AI 산업 전체가 지연 시간을 줄이기 위한 치열한 전투를 벌이고 있습니다. 지푸의 초당 400개 토큰이 상업용 API로서는 기록적이지만, 다른 기업들은 특수 구성을 통해 더 높은 속도를 기록하고 있습니다. 칩 스타트업 Cerebras는 최근 자사 플랫폼에서 조 단위 매개변수 모델인 Kimi K2.6을 초당 981개 토큰의 속도로 실행한다고 발표했는데, 이는 GPU 기반 클라우드보다 약 7배 빠른 속도입니다. 그러나 이는 일반 API로는 접근할 수 없는 Cerebras만의 독특한 웨이퍼 스케일 엔진 하드웨어 아키텍처에 의존합니다.

경쟁은 순수한 하드웨어 성능을 넘어 확장되고 있습니다. 기업용 AI 플랫폼 제공업체인 Kore.ai는 최근 기업들이 AI 에이전트를 구축하고 관리할 수 있도록 설계된 Artemis 플랫폼을 출시했습니다. 이 출시는 속도가 중요하긴 하지만, 금융이나 의료와 같이 규제가 엄격한 산업에서의 도입에는 거버넌스, 보안, 벤더 중립성 같은 요소들이 똑같이 중요하다는 점을 강조합니다. 이는 지푸의 속도 벤치마크를 마이크로소프트, 구글, 세일즈포스와 같은 거대 기업들의 생태계와 경쟁하는 더 넓은 맥락에 놓이게 합니다.

단순한 성능에서 기업용 솔루션으로

더 빠른 토큰 생성에 대한 추구는 명확한 비즈니스 요구에 의해 주도됩니다. AI가 핵심 비즈니스 프로세스에 통합되려면 실시간으로 작동해야 합니다. 실시간 음성 기록, 금융 트레이더를 위한 대화형 데이터 분석, 동적 이커머스 추천과 같은 유스케이스는 현재의 많은 모델이 제공할 수 없는 즉각적인 응답을 요구합니다. 지푸는 수백 밀리초의 지연 시간이 제품의 생존 여부를 결정짓는 이 시장 세그먼트를 직접 겨냥하고 있습니다.

투자자들에게 이 트렌드는 AI 시장의 성숙을 의미합니다. 과거에는 모델 크기와 벤치마크 점수가 헤드라인을 장식했지만, 가치는 이러한 모델을 빠르고 비용 효율적으로 서비스하는 능력에서 창출됩니다. 지푸의 서비스는 기업들이 더 정교한 AI를 배포하는 장벽을 낮추어, 잠재적으로 속도가 느린 기존 업체들로부터 시장 점유율을 뺏어올 수 있습니다. 지푸와 Kore.ai 등의 플랫폼의 성공은 단순히 빠른 모델이 아니라, 완전하고 신뢰할 수 있으며 안전한 기업용 솔루션을 제공하는 능력에 달려 있을 것입니다.

이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.