GLM-5 của Zhipu AI cắt giảm 50% chi phí GPU trên chip nội địa

Edgen Stock·Feb 22 2026, 11:38

Chia sẻ đến

Chia sẻ đến

Sao chép liên kết

Những điểm chính

Zhipu AI đã công bố các thông số kỹ thuật của mô hình ngôn ngữ lớn GLM-5 của mình, báo hiệu một sự thay đổi chiến lược trong phát triển AI của Trung Quốc. Mô hình này ưu tiên hiệu quả kỹ thuật và tích hợp sâu với phần cứng nội địa hơn là chạy theo điểm chuẩn, tạo ra một hệ thống công nghệ tự chủ.

Trí tuệ cấp độ kỹ thuật: Mô hình 744 tỷ tham số được thiết kế cho các tác vụ phức tạp, kéo dài, vượt ra ngoài việc tạo mã đơn giản để thực hiện kỹ thuật và lập kế hoạch hệ thống tự động.
Hiệu quả thông qua đổi mới: Cơ chế DeepSeek Sparse Attention (DSA) mới giúp giảm tính toán attention từ 1,5 đến 2 lần đối với các ngữ cảnh dài mà không làm giảm hiệu suất, giúp AI quy mô lớn khả thi hơn về mặt kinh tế.
Tích hợp phần cứng nội địa: GLM-5 được tối ưu hóa nguyên bản cho một loạt GPU của Trung Quốc, bao gồm Huawei Ascend. Sự tối ưu hóa đồng bộ này đạt được hiệu suất tương đương với hai GPU quốc tế trên một nút nội địa duy nhất và giảm 50% chi phí triển khai cho các tác vụ chuỗi dài.

744 Tỷ Tham Số của GLM-5 Ưu tiên Kỹ thuật hơn Điểm chuẩn

Công ty AI Trung Quốc Zhipu đã trình bày chi tiết mô hình GLM-5 với 744 tỷ tham số của mình, đánh dấu một sự phát triển đáng kể từ việc theo đuổi các chỉ số trên bảng xếp hạng sang đạt được "trí tuệ cấp độ kỹ thuật". Mô hình được đào tạo trên 28.5 nghìn tỷ token và tập trung vào việc tự động thực hiện các tác vụ kỹ thuật phần mềm phức tạp, nhiều bước. Cách tiếp cận này, mà Zhipu gọi là "Kỹ thuật Đặc vụ", cho phép mô hình tự động lập kế hoạch, viết và gỡ lỗi toàn bộ hệ thống từ một mục tiêu cấp cao. Trong các thử nghiệm như điểm chuẩn Vending-Bench 2, mô phỏng việc quản lý một doanh nghiệp trong một năm, GLM-5 đã xếp hạng nhất trong số các mô hình mã nguồn mở, thể hiện khả năng ra quyết định chiến lược dài hạn.

Đổi mới Attention Thưa thớt Giảm tải Điện toán tới 2 lần

Cốt lõi của hiệu quả của GLM-5 là một cơ chế DeepSeek Sparse Attention (DSA) mới. Không giống như các hệ thống attention truyền thống, nơi độ phức tạp tính toán tăng theo cấp số nhân với độ dài đầu vào, DSA tự động xác định và chỉ xử lý các token dữ liệu quan trọng nhất. Sự đổi mới này giảm tải công việc tính toán attention từ 1,5 đến 2 lần trong cửa sổ ngữ cảnh 200.000 token của nó. Quan trọng là, Zhipu đã đạt được hiệu quả này mà không có sự suy giảm hiệu suất điển hình liên quan đến các phương pháp attention thưa thớt khác. Kết quả là một kiến trúc mô hình có thể xử lý các ngữ cảnh lớn hơn và mang lại hiệu suất cao hơn trên cùng phần cứng, một lợi thế quan trọng để phát triển AI tiết kiệm chi phí trong môi trường hạn chế tính toán.

Hỗ trợ Nguyên bản cho GPU Trung Quốc Cắt giảm Chi phí Triển khai 50%

Khía cạnh chiến lược quan trọng nhất của GLM-5 là tối ưu hóa nguyên bản, cấp hệ thống cho các GPU nội địa Trung Quốc. Mô hình này được điều chỉnh hoàn toàn cho phần cứng từ Huawei Ascend, Moore Threads, Hygon, Cambricon và các hãng khác. Điều này vượt ra ngoài khả năng tương thích đơn giản, liên quan đến việc tái cấu trúc toàn bộ ngăn xếp từ lập lịch bộ nhớ đệm KV đến các chiến lược xử lý song song phân tán. Thiết kế đồng bộ phần mềm-phần cứng này rất hiệu quả, cho phép một nút điện toán nội địa duy nhất đạt hiệu suất tương đương với một cụm sử dụng hai GPU quốc tế chính thống. Đối với việc xử lý các chuỗi dữ liệu dài, tối ưu hóa sâu này giảm chi phí triển khai đáng kể 50%, trực tiếp thách thức sự thống trị thị trường của các nhà cung cấp phần cứng nước ngoài và đẩy nhanh con đường của Trung Quốc hướng tới một hệ sinh thái AI hoàn toàn độc lập.