새로운 신뢰성 도구로 AI 모델 오류 26% 감소

Google, OpenAI, Anthropic이 제공하는 AI 모델들이 외부 도구와 인간이 검증한 데이터를 사용함으로써 더욱 신뢰할 수 있게 변하고 있습니다. 이러한 변화는 OpenAI의 최신 모델에서 사실 관계 오류를 26% 줄였으며, 이는 기업 도입에 매우 중요한 요소입니다. 최근 Anthropic의 Claude Code 소스 코드 유출을 통해 드러난 이 진화는 순수한 생성적 추측에서 벗어나 도구의 도움을 받는 신뢰성 높은 방식으로의 이동을 보여줍니다.

Anthropic 대변인은 "독립적인 평가에서 Claude가 지속적으로 돋보이는 부분은 연구자들이 '교정(calibration)'이라고 부르는 부분입니다. 즉, 자신이 모르는 것이 무엇인지 알고 그렇게 말하는 능력입니다"라고 말하며, AI '환각'을 줄이고 답변의 정직성을 높이려는 업계 전반의 노력을 언급했습니다.

신뢰성 향상을 위한 노력은 세 가지 핵심 변화에 집중되어 있습니다. 첫째, 모델들은 일반적인 웹 콘텐츠를 넘어 유료 인간 전문가들이 큐레이션한 전문 데이터로 학습되고 있습니다. 또한 이제 검색 엔진을 사용하여 최신 정보를 가져옵니다. OpenAI의 내부 테스트 결과, 최신 모델은 2년 전 모델보다 사실 오류가 26% 줄어든 것으로 나타났습니다. 둘째, AI는 이제 계산기와 같은 전통적인 소프트웨어 도구와 통합되어 수학 및 코딩 문제에 대한 기호 논리 추론을 수행합니다. 셋째, 기업들은 '모델 위원회' 방식을 사용하고 있습니다. 이는 ChatGPT와 같은 하나의 AI가 낸 답변을 Claude와 같은 다른 모델이 교차 검증하여 사용자에게 제공하기 전 정확성을 확보하는 방식입니다.

이러한 신뢰성에 대한 집중은 신뢰할 수 있는 AI에 대한 고객의 요구에 직접적인 응답이며, 이는 재무 분석 및 의료 진단과 같은 고위험 상업 환경에서 시스템을 배포하는 데 필수적입니다. Google의 모기업 Alphabet(GOOGL), Microsoft가 지원하는 OpenAI, Amazon이 지원하는 Anthropic과 같은 기업들에게 신뢰할 수 있고 수익을 창출하는 애플리케이션으로의 명확한 경로를 입증하는 것은 기업 가치에 큰 영향을 미치고 기술 전반에 걸친 도입을 가속화할 수 있습니다.

지능에 대한 하이브리드 접근 방식

유출된 Anthropic의 Claude Code 소스 코드는 대규모 언어 모델(LLM)과 전통적인 프로그래밍을 결합한 복잡한 시스템을 드러냈습니다. 코드를 분석한 AI 연구원들에 따르면, 여기에는 환각을 증가시킬 수 있는 고질적 문제인 컨텍스트 과부하를 방지하기 위한 대화 메모리 관리 전용 시스템이 포함되어 있습니다. 또한 욕설을 스캔하여 사용자의 좌절감을 감지하는 스크립트도 발견되어, 단순한 정확성을 넘어 사용자 경험에도 집중하고 있음을 보여주었습니다.

이 하이브리드 모델은 LLM만으로 인간과 유사한 추론을 달성할 수 있다는 관념에 도전합니다. AI 연구원 Gary Marcus는 "LLM 자체는 이전만큼이나 신뢰할 수 없는 수준입니다"라고 말했습니다. 그는 Claude Code와 같은 시스템이 LLM의 확률적 특성과 컴퓨터 코드의 결정론적이고 엄격한 논리를 결합한 것을 높이 평가하며, 이것이 실질적인 응용을 위해 필수적이라고 보았습니다.

"모델 위원회"

여러 AI를 사용하여 작업을 검증하는 관행은 품질 관리를 위한 새로운 업계 표준이 되고 있습니다. 컨설팅 회사 NineTwoThree의 최고 기술 책임자인 Pavel Kirillov는 이를 '모델 위원회'라고 부릅니다. 그는 한 업체 AI의 결과를 다른 회사의 모델로 확인하게 함으로써 최종 출력의 품질과 정확성이 크게 향상된다고 말합니다. 이 방법은 FanDuel이나 Consumer Reports와 같은 고객을 위해 전문 AI 시스템을 구축하는 기업들 사이에서 채택되고 있습니다.

따라서 AI 서비스의 개선은 단순히 더 똑똑해진 기본 모델 덕분이 아니라, 신선한 정보와 전통적 소프트웨어, 그리고 교차 검증을 통합한 더 견고한 아키텍처 덕분입니다. 이는 인공 일반 지능(AGI)을 추구하는 것보다 더 평범한 현실일 수 있지만, 훨씬 더 실용적이고 상업적으로 생존 가능한 방식입니다. 업계의 거물들은 자신들의 창조물이 혼자서는 모든 것을 할 수 없으며, 인간이 연마한 도구와 지식이 필요하다는 점을 깨달았습니다.

본 기사는 정보 제공 목적으로만 작성되었으며 투자 조언을 구성하지 않습니다.