Offchain Labs의 새로운 샘플링 기반 프로토콜이 AI 추론 검증 시간을 15분에서 밀리초로 단축하며, 사용자가 GPU에서 실제로 어떤 모델이 실행되는지 확인할 수 없었던 신뢰 격차를 해결했다.
Offchain Labs의 새로운 샘플링 기반 프로토콜이 AI 추론 검증 시간을 15분에서 밀리초로 단축하며, 사용자가 GPU에서 실제로 어떤 모델이 실행되는지 확인할 수 없었던 신뢰 격차를 해결했다.

Arbitrum 개발사 Offchain Labs가 6월 3일 연구 논문을 발표하고, 샘플링 기반 방식을 통해 AI 추론 증명 생성 시간을 약 15분에서 밀리초로 단축하는 방법을 제안했다.
"토큰당 가격 책정 모델은 사기에 대한 구체적인 경제적 유인을 창출합니다. 70억 개 파라미터 모델을 서빙하는 것보다 7억 개 파라미터 모델을 서빙하는 것이 비용이 덜 들고, 양자화된 추론을 실행하는 것이 전체 정밀도보다 저렴합니다,"라고 Offchain Labs의 논문 저자들은 2026년 3월 작성된 Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference라는 제목의 연구에서 밝혔다.
영지식 롤업에서 사용되는 유형의 기존 암호학적 증명은 재실행 없이도 올바른 계산을 입증할 수 있지만, zkLLM과 같은 방식은 130억 개 파라미터 모델에 대한 단일 추론 증명을 생성하는 데 약 15분이 소요된다. 이는 1초 이내에 응답해야 하는 API에는 적합하지 않은 시간이다. Offchain Labs의 제안은 전체 재실행을 포기하고 무작위 샘플링을 채택한다. 서버는 모델 가중치와 내부 값의 디지털 지문을 커밋하고, 클라이언트는 출력을 향한 무작위 경로를 선택하여 해당 경로의 값만 공개하도록 서버에 요청한다. 서버가 더 작은 모델로 대체한 경우 값이 일치하지 않아 검증에 실패하며, 반복적인 쿼리를 통해 탐지 확률이 누적된다.
이 프로토콜은 Arbitrum One을 보호하는 것과 동일한 분쟁 해결 로직(낙관적 롤업은 모든 연산을 재실행하지 않고 분쟁이 발생한 단계만 재실행)을 신경망 추론에 확장한다. 로그 수의 라운드 내에서 두 서버 간의 불일치를 좁히는 이분법 절차를 사용한다. 모델 거버넌스가 필요한 규제 산업과 자율 에이전트 시장에서, 투명성 주장과 검증 가능한 주장 간의 차이는 직접적인 결과를 초래하기 시작하고 있다.
논문에 따르면 스탠퍼드 연구진은 GPT-3.5와 GPT-4의 행동이 2023년 3월에서 6월 사이 동일한 평가 과제에서 측정 가능한 방식으로 변화했음을 문서화했지만, 현재 API 계약은 이러한 차이를 감지할 수 있는 메커니즘을 제공하지 않는다. 모델 대체에 대한 경제적 유인은 규모에 따라 증가한다. 제공업체는 더 큰 모델의 수수료를 청구하면서 쿼리의 일부를 더 작거나 양자화된 모델로 리디렉션할 수 있다.
Arbitrum과의 연관성은 논문에서 명확히 드러난다. 낙관적 롤업은 동일한 직관, 즉 모든 머신에서 긴 연산의 모든 단계를 재실행하는 것은 비용이 많이 들지만, 분쟁 단계를 샘플링하는 것은 저렴하다는 원리에 기반한다. 제안된 프로토콜은 이러한 로직을 신경망 값으로 확장하며, Arbitrum One을 보호하는 것과 동일한 이분법 기반 분쟁 해결 구조를 사용한다.
규제 산업, 모델 거버넌스 팀, 그리고 떠오르는 자율 에이전트 시장을 위해, 이 프로토콜은 개발자가 기존 스택을 수정할 필요가 없다. 시스템 내 누군가(제공업체, 감사자 또는 플랫폼)가 검증 가능한 명세서를 생성하기만 하면 된다.
본 문서는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.