744 Tỷ Tham Số của GLM-5 Ưu tiên Kỹ thuật hơn Điểm chuẩn
Công ty AI Trung Quốc Zhipu đã trình bày chi tiết mô hình GLM-5 với 744 tỷ tham số của mình, đánh dấu một sự phát triển đáng kể từ việc theo đuổi các chỉ số trên bảng xếp hạng sang đạt được "trí tuệ cấp độ kỹ thuật". Mô hình được đào tạo trên 28.5 nghìn tỷ token và tập trung vào việc tự động thực hiện các tác vụ kỹ thuật phần mềm phức tạp, nhiều bước. Cách tiếp cận này, mà Zhipu gọi là "Kỹ thuật Đặc vụ", cho phép mô hình tự động lập kế hoạch, viết và gỡ lỗi toàn bộ hệ thống từ một mục tiêu cấp cao. Trong các thử nghiệm như điểm chuẩn Vending-Bench 2, mô phỏng việc quản lý một doanh nghiệp trong một năm, GLM-5 đã xếp hạng nhất trong số các mô hình mã nguồn mở, thể hiện khả năng ra quyết định chiến lược dài hạn.
Đổi mới Attention Thưa thớt Giảm tải Điện toán tới 2 lần
Cốt lõi của hiệu quả của GLM-5 là một cơ chế DeepSeek Sparse Attention (DSA) mới. Không giống như các hệ thống attention truyền thống, nơi độ phức tạp tính toán tăng theo cấp số nhân với độ dài đầu vào, DSA tự động xác định và chỉ xử lý các token dữ liệu quan trọng nhất. Sự đổi mới này giảm tải công việc tính toán attention từ 1,5 đến 2 lần trong cửa sổ ngữ cảnh 200.000 token của nó. Quan trọng là, Zhipu đã đạt được hiệu quả này mà không có sự suy giảm hiệu suất điển hình liên quan đến các phương pháp attention thưa thớt khác. Kết quả là một kiến trúc mô hình có thể xử lý các ngữ cảnh lớn hơn và mang lại hiệu suất cao hơn trên cùng phần cứng, một lợi thế quan trọng để phát triển AI tiết kiệm chi phí trong môi trường hạn chế tính toán.
Hỗ trợ Nguyên bản cho GPU Trung Quốc Cắt giảm Chi phí Triển khai 50%
Khía cạnh chiến lược quan trọng nhất của GLM-5 là tối ưu hóa nguyên bản, cấp hệ thống cho các GPU nội địa Trung Quốc. Mô hình này được điều chỉnh hoàn toàn cho phần cứng từ Huawei Ascend, Moore Threads, Hygon, Cambricon và các hãng khác. Điều này vượt ra ngoài khả năng tương thích đơn giản, liên quan đến việc tái cấu trúc toàn bộ ngăn xếp từ lập lịch bộ nhớ đệm KV đến các chiến lược xử lý song song phân tán. Thiết kế đồng bộ phần mềm-phần cứng này rất hiệu quả, cho phép một nút điện toán nội địa duy nhất đạt hiệu suất tương đương với một cụm sử dụng hai GPU quốc tế chính thống. Đối với việc xử lý các chuỗi dữ liệu dài, tối ưu hóa sâu này giảm chi phí triển khai đáng kể 50%, trực tiếp thách thức sự thống trị thị trường của các nhà cung cấp phần cứng nước ngoài và đẩy nhanh con đường của Trung Quốc hướng tới một hệ sinh thái AI hoàn toàn độc lập.