Offchain Labs 将 AI 推理证明时间从 15 分钟缩短至毫秒级

Arbitrum 开发商 Offchain Labs 于 6 月 3 日发布了一篇研究论文，提出了一种基于抽样的方法，将 AI 推理证明的生成时间从约 15 分钟缩短至毫秒级。

"按 token 计价的定价模式为欺诈行为创造了具体的经济激励——运行一个 70 亿参数的模型比运行一个 700 亿参数的模型成本更低，而运行量化推理也比全精度推理更便宜，"Offchain Labs 的论文作者在该研究报告中写道。该报告题为《迈向可验证 AI：基于轻量级加密推理证明》（Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference），发布于 2026 年 3 月。

现有的加密证明（如零知识 rollup 所使用的类型）可以在不重新执行的情况下证明计算正确性，但诸如 zkLLM 之类的方案生成一个 130 亿参数模型的单次推理证明大约需要 15 分钟——这一时间框架与必须在 1 秒内响应的 API 要求无法兼容。Offchain Labs 的提案放弃了穷举式重新执行，转而采用随机抽样：服务器提交模型权重及内部值的数字指纹，然后客户端选择一条通往输出的随机路径，要求服务器仅揭示该路径上的数值。如果服务器替换了更小的模型，这些数值将出现不一致，验证便会失败，且重复查询会累积检测概率。

该协议将保护 Arbitrum One 的相同争议解决逻辑——乐观 rollup 仅对存疑步骤进行重新执行，而非全部计算——扩展至神经网络推理，采用二分法程序，在对数轮次内缩小两台服务器之间的分歧。对于新兴的自主代理市场和需要模型治理的受监管行业而言，透明度声明与可验证声明之间的差异正开始带来直接的后果。

论文指出，斯坦福大学的研究人员记录到，GPT-3.5 和 GPT-4 在 2023 年 3 月至 6 月期间，相同评估任务下的行为发生了可测量的变化，而当前的 API 合约并未提供任何机制来检测这种差异。模型替换的经济激励随数量增长：提供商可将部分查询重定向至更小或量化的模型，同时按更大模型的费用标准收费。

论文中明确提到了与 Arbitrum 的关联。乐观 rollup 基于相同的直觉——在每台机器上重新执行长计算的每一步都是昂贵的，而对存疑步骤进行抽样则是廉价的。该提案将这一逻辑扩展至神经网络数值，使用了与保护 Arbitrum One 相同的基于二分法的争议解决结构。

对于受监管行业、模型治理团队以及新兴的自主代理市场而言，该协议不要求开发者修改其现有技术栈；它仅要求系统中的某个角色——无论是提供商、审计方还是平台——生成一份可验证的声明。

本文仅供信息参考，不构成投资建议。