关键要点
- AI巨头正利用人类专家和搜索工具来提高模型的事实性,OpenAI称错误率已下降26%。
- 模型现在使用外部软件工具(如计算器)处理数学等任务,已不再仅仅依靠纯生成式的猜测来提高可靠性。
- “模型评议会”机制(即让不同的AI相互检查工作)正逐渐受到青睐,以减少虚假信息的产生。
关键要点

谷歌、OpenAI和Anthropic提供的人工智能模型正通过利用外部工具和经由人工验证的数据变得更加可靠。这一转变使OpenAI最新模型的真实性错误减少了26%,对企业级应用至关重要。最近Anthropic的Claude Code代码泄露也凸显了这一趋势,即AI正从纯粹的生成式推测转向更可信的、由工具辅助的方式。
“Claude在独立评估中始终脱颖而出的地方,被研究人员称为‘校准’:即模型知道自己不知道什么,并如实告知,”Anthropic的一位发言人表示。他提到了整个行业都在努力减少AI“幻觉”并提高模型回答的诚实度。
提升可靠性的努力集中在三个核心变化上。首先,模型正接受由付费人类专家策划的专业数据训练,而不再仅仅依靠通用的网络内容。它们现在还能使用搜索引擎获取实时信息。OpenAI的内部测试显示,其最新模型的真实性错误比两年前的版本减少了26%。其次,AI现已整合了传统的软件工具(如计算器),以执行数学和编程问题的符号推理。第三,各公司正采用“模型评议会”机制,即让一个AI(如ChatGPT)的回答由另一个AI(如Claude)进行交叉核对,以确保在呈现给用户前其准确无误。
这种对可靠性的关注是直接响应客户对可信AI的需求,这对于将此类系统部署在财务分析和医疗诊断等高风险商业环境中至关重要。对于谷歌母公司Alphabet (GOOGL)、微软支持的OpenAI以及亚马逊支持的Anthropic而言,证明一条通向可靠且能创收的应用路径,可能会显著影响其估值,并加速其在科技行业的应用。
泄露的Anthropic Claude Code源代码揭示了一个将大语言模型(LLM)与传统编程相结合的复杂系统。分析该代码的AI研究人员表示,它包含管理对话记忆的专用系统,以防止上下文过载——这是一个已知会导致幻觉增加的问题。另一段脚本被发现可通过扫描粗俗词汇来检测用户的挫败感,这表明除了纯粹的准确性外,用户体验也是关注重点。
这种混合模型挑战了仅凭LLM就能实现类人推理的观点。“LLM本身或多或少还是和以前一样不可靠,”AI研究员加里·马库斯(Gary Marcus)说道。他称赞像Claude Code这样的系统将LLM的概率性质与计算机代码的确定性、严谨逻辑相结合,他认为这种结合对于实际应用至关重要。
利用多个AI来验证工作正成为新的行业质量控制标准。咨询公司NineTwoThree的首席技术官帕维尔·基里洛夫(Pavel Kirillov)将此称为“模型评议会”。他表示,通过让一家供应商的AI结果接受另一家公司模型的检查,最终输出的质量和准确性将得到显著提升。这种方法正被为FanDuel和《消费者报告》等客户构建专业AI系统的公司所采用。
因此,AI服务的改进不仅源于更底层的智能模型,还源于整合了更新信息、传统软件和交叉验证的更稳健架构。虽然这可能比追求通用人工智能的现实更加乏味,但它更具实用性且具备商业可行性。行业巨头们已经意识到,他们的创造物无法独立完成所有工作,仍需要人类磨练出的工具和知识。
本文仅供参考,不构成投资建议。