오픈AI와 브로드컴, 추론 비용 50% 절감하는 '할라페뇨' 칩 공개

오픈AI가 브로드컴과 공동 개발한 첫 커스텀 칩은 9개월 만에 완성됐으며, 추론 비용을 절반으로 줄이고 엔비디아 GPU 의존도를 낮출 것으로 기대된다.

오픈AI와 브로드컴이 '할라페뇨(Jalapeño)'를 공개했다. 브로드컴 CEO는 이 커스텀 추론 칩이 비용을 약 50% 절감한다고 밝히며, AI 반도체 시장에서 엔비디아의 지배력에 도전장을 내밀었다.

오픈AI의 사장 겸 공동 창업자인 그렉 브록만은 "스택의 더 많은 부분을 우리가 직접 설계함으로써 더 큰 효율성으로 더 많은 지능을 제공할 수 있다"며 "할라페뇨는 컴퓨팅 자원을 더 풍부하게 만들기 위한 장기적 풀스택 인프라 전략의 일부"라고 밝혔다.

초기 설계부터 테이프아웃까지 9개월 만에 개발된 이 칩은 기존 AI 가속기를 변형한 것이 아닌, 대규모 언어 모델(LLM) 추론을 위해 백지 상태에서 설계된 아키텍처다. 엔지니어링 샘플은 이미 GPT-5.3-Codex-Spark를 생산 목표 주파수와 전력으로 구동 중이며, 초기 테스트 결과 현재 최고 수준의 칩 대비 와트당 성능이 "상당히 우수한" 것으로 나타났다고 오픈AI는 전했다. 브로드컴의 주가는 발표 이후 약 2% 상승했으나, 이후 반도체 업종 전반의 하락과 함께 약 3% 하락 마감했다.

이번 파트너십은 2022년 생성형 AI 붐이 시작된 이후 엔비디아의 최대 GPU 구매처 중 하나였던 오픈AI의 전략적 전환을 의미한다. 자체 실리콘을 설계함으로써 오픈AI는 추론 컴퓨팅 수요가 폭발적으로 증가하는 시점에 조달 비용을 절감하려는 목표다. 할라페뇨 기반 시스템의 초기 배치는 2026년 말로 예상되며, 마이크로소프트 및 기타 파트너사와 함께 기가와트급 데이터센터로 확장할 계획이다.

할라페뇨는 LLM 추론을 위해 특별히 설계된 ASIC(주문형 집적회로)이다. 다양한 워크로드에서 학습과 추론을 모두 처리하는 엔비디아의 범용 GPU와 달리, ASIC은 특정 작업에 효율성을 극대화하는 대신 유연성을 희생한다. 오픈AI는 이 아키텍처가 데이터 이동을 줄이고 컴퓨팅, 메모리, 네트워킹 리소스의 균형을 맞춰 "이론적 최대 성능에 훨씬 가까운" 활용률을 달성한다고 설명했다. 브로드컴은 자사의 토마호크(Tomahawk) 네트워킹 실리콘과 칩 구현 전문성을 제공했으며, 셀레스티카(Celestica)가 보드, 랙, 시스템 통합을 담당했다.

이 칩은 계획된 다세대 컴퓨팅 플랫폼의 첫 번째 제품이다. 오픈AI는 또한 아마존 웹서비스의 트레이니엄(Trainium) 칩, 어드밴스드 마이크로 디바이스(AMD) 및 세레브라스(Cerebras)와도 계약을 체결하며 엔비디아로부터의 의도적인 다각화 전략을 추진 중이다. 오픈AI는 9개월의 개발 주기가 고성능 반도체 역사상 가장 빠른 ASIC 개발일 수 있으며, 오픈AI 자체 모델이 칩 설계와 최적화를 지원함으로써 개발이 가속화됐다고 밝혔다.

투자자들에게 이번 소식은 양날의 검이다. 2022년 말 이후 주가가 약 7배 상승한 브로드컴은 오픈AI라는 대량 커스텀 칩 고객을 확보하며 네트워킹을 넘어 AI 매출원을 다각화하게 됐다. GPU로 AI 칩 시장을 장악해온 엔비디아는 최대 고객 중 하나가 AI 컴퓨팅 중 가장 빠르게 성장하는 추론 분야에서 대체재를 구축하는 상황에 직면했다. 오픈AI는 프로그램의 총비용이나 칩당 가격을 공개하지 않았지만, 브로드컴 CEO 혹 탄은 이번 협력을 "2026년부터 기가와트급 데이터센터 배치를 가능하게 하는 다세대 로드맵의 시작"이라고 설명했다.

본 문서는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.