Các mô hình AI giảm 26% lỗi nhờ công cụ tin cậy mới

Các mô hình trí tuệ nhân tạo cung cấp dịch vụ từ Google, OpenAI và Anthropic đang trở nên đáng tin cậy hơn bằng cách sử dụng các công cụ bên ngoài và dữ liệu được con người xác minh, một sự thay đổi đã giúp cắt giảm 26% lỗi thực tế trong mô hình mới nhất của OpenAI và đóng vai trò quan trọng đối với việc áp dụng trong doanh nghiệp. Sự phát triển này, được làm nổi bật bởi vụ rò rỉ vô tình mã nguồn Claude Code của Anthropic, cho thấy sự chuyển dịch từ việc dự đoán thuần túy sang cách tiếp cận dựa trên công cụ và đáng tin cậy hơn.

"Điểm mà Claude liên tục nổi bật trong các đánh giá độc lập là cái mà các nhà nghiên cứu gọi là 'hiệu chuẩn': biết những gì nó không biết và nói ra điều đó," một phát ngôn viên của Anthropic cho biết, khi đề cập đến nỗ lực toàn ngành nhằm giảm tình trạng "ảo giác" AI và tăng tính trung thực trong các phản hồi của mô hình.

Động lực nâng cao độ tin cậy tập trung vào ba thay đổi cốt lõi. Thứ nhất, các mô hình đang được đào tạo trên dữ liệu chuyên biệt do các chuyên gia con người được trả lương biên soạn, thay vì chỉ dựa vào nội dung web thông thường. Chúng cũng sử dụng các công cụ tìm kiếm để lấy thông tin hiện tại. Các thử nghiệm nội bộ của OpenAI cho thấy mô hình mới nhất của họ có ít lỗi thực tế hơn 26% so với phiên bản tiền nhiệm cách đây hai năm. Thứ hai, AI hiện được tích hợp với các công cụ phần mềm truyền thống, như máy tính, để thực hiện suy luận ký hiệu cho các bài toán toán học và lập trình. Thứ ba, các công ty đang sử dụng "hội đồng mô hình", trong đó câu trả lời từ một AI, chẳng hạn như ChatGPT, được kiểm tra chéo bởi một AI khác, chẳng hạn như Claude, để đảm bảo tính chính xác trước khi trình bày cho người dùng.

Sự tập trung vào độ tin cậy này là phản hồi trực tiếp đối với nhu cầu của khách hàng về AI đáng tin cậy, điều thiết yếu để triển khai các hệ thống này trong các môi trường thương mại rủi ro cao như phân tích tài chính và chẩn đoán y tế. Đối với các công ty như Alphabet (GOOGL) - công ty mẹ của Google, OpenAI do Microsoft hỗ trợ và Anthropic do Amazon hỗ trợ, việc chứng minh một lộ trình rõ ràng hướng tới các ứng dụng đáng tin cậy và tạo ra doanh thu có thể tác động đáng kể đến định giá của họ và đẩy nhanh việc áp dụng trong toàn ngành công nghệ.

Cách tiếp cận lai đối với trí tuệ

Mã nguồn bị rò rỉ của Claude Code từ Anthropic đã tiết lộ một hệ thống phức tạp kết hợp các mô hình ngôn ngữ lớn (LLM) với lập trình truyền thống. Theo các nhà nghiên cứu AI đã phân tích mã, nó bao gồm các hệ thống chuyên dụng để quản lý bộ nhớ hội thoại nhằm ngăn chặn tình trạng quá tải ngữ cảnh—một vấn đề được biết đến là có thể làm tăng ảo giác. Một đoạn mã khác đã được tìm thấy để phát hiện sự thất vọng của người dùng bằng cách quét các từ chửi thề, minh họa cho sự tập trung vào trải nghiệm người dùng bên cạnh tính chính xác thuần túy.

Mô hình lai này thách thức quan niệm rằng chỉ riêng LLM có thể đạt được khả năng suy luận giống con người. Nhà nghiên cứu AI Gary Marcus cho biết: "Bản thân các LLM vẫn thiếu tin cậy như trước đây." ông khen ngợi các hệ thống như Claude Code vì đã kết hợp bản chất xác suất của LLM với logic cứng nhắc, xác định của mã máy tính, một sự kết hợp mà ông coi là thiết yếu cho các ứng dụng thực tế.

"Hội đồng mô hình"

Việc sử dụng nhiều AI để xác minh công việc đang trở thành một tiêu chuẩn ngành mới về kiểm soát chất lượng. Pavel Kirillov, giám đốc công nghệ của công ty tư vấn NineTwoThree, gọi đây là "hội đồng mô hình". Ông nói rằng bằng cách cho kết quả từ AI của một nhà cung cấp được kiểm tra bởi một mô hình từ một công ty khác, chất lượng và độ chính xác của đầu ra cuối cùng được cải thiện đáng kể. Phương pháp này đang được áp dụng bởi các công ty xây dựng hệ thống AI chuyên dụng cho các khách hàng như FanDuel và Consumer Reports.

Do đó, sự cải thiện trong các dịch vụ AI không chỉ đến từ các mô hình nền tảng thông minh hơn, mà còn từ một kiến trúc mạnh mẽ hơn kết hợp thông tin mới hơn, phần mềm truyền thống và xác minh chéo. Mặc dù đây có thể là một thực tế tầm thường hơn so với việc theo đuổi siêu trí tuệ nhân tạo, nhưng nó là một thực tế thực tế và khả thi về mặt thương mại hơn nhiều. Những ông lớn trong ngành đã nhận ra rằng sáng tạo của họ không thể tự làm tất cả và cần đến các công cụ cũng như kiến thức được con người trau dồi.

Bài viết này chỉ mang tính chất thông tin và không cấu thành lời khuyên đầu tư.