Tác nhân Gemini Spark mới của Google hướng tới việc vượt xa việc trò chuyện và tự động hoàn thành các tác vụ trong hệ sinh thái của mình, bao gồm cả việc thay mặt người dùng thực hiện mua hàng.
Tác nhân Gemini Spark mới của Google hướng tới việc vượt xa việc trò chuyện và tự động hoàn thành các tác vụ trong hệ sinh thái của mình, bao gồm cả việc thay mặt người dùng thực hiện mua hàng.

Google đang đặt cược rằng tương lai của trí tuệ nhân tạo không nằm ở việc trả lời các câu hỏi, mà là ở việc hoàn thành các tác vụ. Tại hội nghị I/O 2026, công ty đã công bố một loạt sản phẩm mới xoay quanh Gemini Spark, một tác nhân AI bền bỉ được thiết kế để hoạt động trên các dịch vụ của Google ngay cả khi người dùng ngoại tuyến, đánh dấu bước tiến đầy tham vọng nhất của mình vào thế giới của các hệ thống tự trị.
Sundar Pichai, CEO của Google và Alphabet, cho biết trong một buổi báo cáo: "Chúng ta đang ở giai đoạn của chu kỳ mà mọi người muốn thấy giá trị thực sự trong các sản phẩm họ sử dụng hàng ngày". Ông lập luận rằng với Spark, giá trị đến từ một tác nhân hoạt động suốt ngày đêm trên đám mây của Google, vì vậy "bạn không cần phải mở laptop để đảm bảo nó đang chạy".
Tác nhân này được cung cấp sức mạnh bởi mô hình Gemini 3.5 Flash mới của Google và chạy trong một khung cấu trúc có tên là Antigravity, cho phép nó thực hiện các quy trình làm việc nhiều bước trên các ứng dụng như Gmail, Docs và Calendar. Dịch vụ này sẽ có sẵn cho những người đăng ký gói Google AI Ultra mới, bắt đầu từ 100 USD mỗi tháng cho giới hạn sử dụng gấp năm lần so với gói Pro và 20TB dung lượng lưu trữ.
Các thông báo này đưa Google vào một cuộc đua khốc liệt chống lại Microsoft, OpenAI và Anthropic để xây dựng tác nhân AI tối thượng. Công ty đang đặt cược rằng sự tích hợp sâu rộng với các dịch vụ tiêu dùng và kế hoạch chi tiêu vốn khổng lồ từ 180 tỷ đến 190 tỷ USD trong năm nay sẽ mang lại cho họ lợi thế quyết định trong một thị trường đang chuyển dịch từ AI đàm thoại sang hành động tự trị.
Để các tác nhân thực sự trở nên hữu ích, chúng cần tương tác với thế giới thực, và đặc biệt là với thương mại. Google đã giải quyết vấn đề này bằng cách giới thiệu hai giao thức mới: Giao thức thanh toán tác nhân (AP2) và Giao thức thương mại phổ quát (UCP). AP2 là một hệ thống được thiết kế để cho phép các tác nhân AI thực hiện các giao dịch mua hàng an toàn trong các ranh giới do người dùng xác định, với việc Google so sánh các biện pháp bảo vệ này giống như việc đưa cho một thiếu niên chiếc thẻ ghi nợ đầu tiên của họ.
Hệ thống tạo ra một liên kết có thể xác minh giữa người dùng, người bán và bộ xử lý thanh toán. Nó được xây dựng trên UCP, một tiêu chuẩn mã nguồn mở được công bố vào đầu năm nay nhằm cung cấp cho các tác nhân và hệ thống thương mại một ngôn ngữ chung. Hội đồng Công nghệ UCP hiện bao gồm các đối thủ như Amazon, Meta và Microsoft, cho thấy sự đồng thuận rộng rãi trong ngành về nhu cầu có một khung chung cho thương mại do tác nhân dẫn dắt. Google cũng sẽ triển khai Giỏ hàng phổ quát vào mùa hè này, hoạt động trên Search, Gemini, YouTube và Gmail để theo dõi giá cả và các ưu đãi.
Bên cạnh các thông báo tập trung vào tác nhân, Google cũng ra mắt các công cụ nhằm giúp AI dễ tiếp cận hơn trong việc sáng tạo nội dung. Google Pics, một ứng dụng thiết kế và tạo hình ảnh mới, được định vị để cạnh tranh trực tiếp với Canva và Claude Design của Anthropic. Được cung cấp bởi mô hình Nano Banana 2, Pics cho phép người dùng tạo và chỉnh sửa các đồ họa phức tạp bằng các câu lệnh văn bản đơn giản hoặc bằng cách để lại nhận xét trực tiếp trên các phần tử hình ảnh, tương tự như Google Docs.
Đối với video, Google đang tích hợp mô hình Gemini Omni vào YouTube Shorts. Tính năng này cho phép các nhà sáng tạo tạo và phối lại các video bằng văn bản, hình ảnh và câu lệnh âm thanh. Hệ thống được thiết kế để tự động xử lý các chỉnh sửa phức tạp trong khi vẫn giữ được sự nhất quán của nhân vật qua các cảnh quay. YouTube nhấn mạnh các biện pháp bảo vệ nhà sáng tạo, bao gồm hình mờ và các quyền kiểm soát từ chối đối với các bản phối lại do AI tạo ra.
Chiến lược của Google với Spark khác biệt so với các đối thủ cạnh tranh. Trong khi tác nhân của OpenAI chủ yếu sử dụng trình duyệt và Claude Cowork của Anthropic hoạt động trên máy tính để bàn của người dùng, Spark hoạt động thông qua tích hợp API có cấu trúc với các ứng dụng Workspace của chính Google và các dịch vụ bên thứ ba. Cách tiếp cận này hứa hẹn độ tin cậy và tốc độ cao hơn so với việc đọc màn hình, nhưng nó cũng có nghĩa là các khả năng của Spark ban đầu bị giới hạn trong các hệ sinh thái mà Google được kết nối.
Độ tin cậy của các hệ thống tự trị này vẫn là một thách thức quan trọng đối với toàn ngành. Một tác nhân hiểu sai ý định của người dùng có thể gây ra những hậu quả đáng kể, một rủi ro mà Google đang giảm thiểu khi ra mắt bằng cách yêu cầu sự chấp thuận rõ ràng của người dùng cho bất kỳ giao dịch tài chính nào. Thử thách thực sự đối với Gemini Spark không phải là liệu nó có thể thực hiện công việc hay không, mà là liệu người dùng có đủ tin tưởng để cho phép nó làm điều đó hay không.
Bài viết này chỉ nhằm mục đích cung cấp thông tin và không cấu thành lời khuyên đầu tư.