텐센트 Hy3 AI 모델, 코딩 능력 40% 향상으로 Claude와 대결

텐센트 홀딩스(Tencent Holdings Ltd.)가 역대 가장 강력한 대규모 언어 모델을 출시했습니다. 벤치마크 점수에 따르면 코딩 분야에서 이전 세대보다 40% 향상된 성능을 보여주며, 훨씬 저렴한 비용으로 앤스로픽 및 구글의 라이벌 모델과 직접 경쟁할 수 있게 되었습니다.

텐센트는 보도자료를 통해 "이 모델은 능력의 폭, 정직한 평가, 비용 효율성이라는 세 가지 요소의 균형을 맞추도록 설계되었다"고 밝혔습니다. 텐센트는 모델 가중치를 오픈 소스로 공개했으며, 클라우드 플랫폼을 통해 API 액세스를 제공하고 있습니다.

새로운 'Hy3 프리뷰' 모델은 2,950억 개의 파라미터를 갖춘 전문가 혼합(MoE) 시스템으로, 추론 시에는 210억 개의 파라미터만 활성화됩니다. 깃허브(GitHub)의 실제 버그 수정 능력을 평가하는 SWE-bench Verified 코딩 테스트에서 Hy3는 74.4%를 기록했는데, 이는 이전 모델의 53.0%에서 비약적으로 상승한 수치입니다. 이는 GLM-5(77.8%)와 Kimi-K2.5(76.8%)와 같은 경쟁 모델을 앞지르며, 앤스로픽의 Claude Opus 4.6(80.8%)을 턱밑까지 추격한 결과입니다.

이번 출시는 텐센트가 상업적으로 실행 가능한 AI를 향해 전략적으로 선회했음을 의미하며, 모델의 가격과 아키텍처는 대규모 배포에 최적화되도록 설계되었습니다. 텐센트에 대해 매수 의견과 목표주가 783 홍콩달러를 유지한 씨티그룹 분석가들은 품질, 속도, 비용의 균형에 집중한 이 모델이 기업 채택을 위한 "올바른 전략적 방향"이라고 평가했습니다. 가격은 100만 입력 토큰당 약 0.18달러로, 유사한 GPT-4 급 모델보다 약 90% 저렴합니다.

상업적 생존 가능성에 집중

텐센트는 모델의 성능 향상이 대규모 배포를 가로막는 가격 상승으로 이어지지 않도록 모델과 추론 프레임워크를 공동 설계함으로써 명확하게 기업 시장을 공략하고 있습니다. 쿼리를 특화된 하위 네트워크로 라우팅하는 MoE 아키텍처는 쿼리당 컴퓨팅 비용을 크게 낮추는 전략의 핵심입니다. 텐센트는 이전 플래그십 모델이 4,000억 개 이상의 파라미터를 가졌으나, 추론의 성숙도와 비용 사이의 최적의 균형을 찾기 위해 의도적으로 수치를 낮췄다고 설명했습니다.

이 모델은 이미 위안바오(Yuanbao), QQ, 텐센트 문서(Tencent Docs)를 포함한 10개 이상의 텐센트 제품에 통합되었습니다. 코드버디(CodeBuddy) 및 워크버디(WorkBuddy)와 같은 내부 애플리케이션에서 첫 번째 토큰 지연 시간은 54% 감소했고, 엔드투엔드 생성 시간은 47% 단축되어 복잡한 에이전트 워크플로우를 위한 운영 환경에서의 안정성을 입증했습니다.

인프라 정비를 통한 속도 향상

Hy3 프리뷰 모델은 개발 시작부터 오픈 소스 출시까지 3개월이 채 걸리지 않았는데, 텐센트는 이를 지난 2월 사전 학습 및 강화 학습 스택을 완전히 개편한 덕분으로 돌렸습니다. 수석 AI 과학자 야오 순위(Yao Shunyu)가 이끄는 이번 재구축은 모델 개발 루프를 제품 팀과 직접 통합하여 실시간 지표로 학습 우선순위를 정한다는 원칙하에 진행되었습니다.

이러한 모델과 제품의 긴밀한 통합은 텐센트에게 소수의 경쟁사만이 따라올 수 있는 데이터 플라이휠을 제공하여, 실제 사용자의 상호작용을 신속한 모델 개선으로 전환할 수 있게 합니다. Hy3는 여전히 일부 벤치마크에서 OpenAI와 구글 딥마인드의 최첨단 모델에 뒤처져 있지만, 비용 대비 성능 비율은 AI 인프라 경쟁에서 강력한 신규 진입자로 자리매김하게 합니다.

이 기사는 정보 제공만을 목적으로 하며 투자 조언을 구성하지 않습니다.