Google chi 60 triệu đô la cho dữ liệu Reddit khi bot làm xói mòn tính toàn vẹn của tìm kiếm

Các nhà xuất bản mất 60% lưu lượng truy cập khi Google chuyển sang AI

Việc Google triển khai AI Overviews đã gây ra sự sụp đổ đáng kể về lưu lượng truy cập giới thiệu cho các nhà sáng tạo nội dung, làm thay đổi cơ bản nền kinh tế tìm kiếm. Dữ liệu mới tiết lộ rằng các nhà xuất bản nhỏ đã chịu thiệt hại nặng nề nhất, mất 60% lưu lượng truy cập giới thiệu từ tìm kiếm trong hai năm qua. Các nhà xuất bản cỡ trung bình giảm 47%, trong khi ngay cả các nhà xuất bản lớn cũng trải qua mức giảm 22%. Sự biến mất lưu lượng truy cập này là hậu quả trực tiếp của việc AI của Google tóm tắt thông tin trực tiếp trên trang kết quả, giảm nhu cầu người dùng nhấp vào các trang web bên ngoài. Dữ liệu từ Đức cho thấy khi có AI Overview, tỷ lệ nhấp vào kết quả tìm kiếm tự nhiên hàng đầu giảm mạnh từ 27,7% xuống chỉ còn 11% — giảm 59% số lần nhấp.

Sự thay đổi thuật toán này khỏi các trang web truyền thống đã tạo ra một người quyết định mới: Reddit. Các mô hình AI của Google hiện ưu tiên mạnh mẽ nội dung từ các diễn đàn để cung cấp các góc nhìn "chân thực" của người đầu tiên, khiến khả năng hiển thị của Reddit trong kết quả tìm kiếm gần như tăng gấp ba lần từ tháng 8 năm 2023 đến tháng 4 năm 2024. Điều này đã định vị Reddit trở thành một nguồn dữ liệu quan trọng cho thế hệ tìm kiếm tiếp theo, chuyển giá trị từ các nhà sản xuất nội dung gốc sang các nhà tổng hợp nội dung.

Reddit kiếm tiền từ dữ liệu bị xâm phạm trong các thỏa thuận cấp phép trị giá 203 triệu đô la

Tận dụng tầm quan trọng chiến lược mới của mình, Reddit đã ký các thỏa thuận cấp phép dữ liệu tổng cộng 203 triệu đô la, bao gồm một thỏa thuận mang tính bước ngoặt 60 triệu đô la mỗi năm với Google. Công ty quảng bá kho lưu trữ thảo luận khổng lồ của người dùng như "cuộc trò chuyện thực sự của con người," một nguồn tài nguyên được cho là vô giá để đào tạo các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, mô hình kinh doanh béo bở này được xây dựng trên một nền tảng bấp bênh. CEO của Reddit, Steve Huffman, đã thừa nhận vào tháng 6 năm 2025 rằng nền tảng này đang trong một "cuộc chạy đua vũ trang" chống lại thư rác do AI tạo ra, một cuộc chiến mà nó dường như đang thua. Chỉ riêng trong nửa đầu năm 2025, Reddit đã xóa hơn 40 triệu bài đăng rác.

Vấn đề không chỉ là thư rác mà còn là sự thao túng tinh vi. Một hệ sinh thái thương mại hoàn chỉnh đã xuất hiện với các công cụ như "ReplyGuy" và "Redreach" cho phép các nhà tiếp thị tự động chèn các đề cập thương hiệu và đề xuất sản phẩm vào các cuộc trò chuyện trên Reddit. Các dịch vụ này công khai quảng cáo khả năng giúp khách hàng được giới thiệu trong AI Overviews của Google, biến Reddit thành một phương tiện để gian lận AI của Google ở quy mô công nghiệp. Điều này đặt ra những câu hỏi nghiêm túc về tính xác thực của dữ liệu mà Google đang trả một khoản phí bảo hiểm để cấp phép.

Tính xác thực tan rã khi bot vượt trội hơn con người

Tuyên bố cung cấp "cuộc trò chuyện thực sự của con người" đang bị bác bỏ một cách có hệ thống. Một nghiên cứu của Đại học Cornell đã triển khai các bot AI trên subreddit r/changemyview và phát hiện chúng có khả năng thuyết phục hơn từ ba đến sáu lần so với những người bình luận là con người. Trong hơn bốn tháng và hàng nghìn bình luận, không một người dùng hay người kiểm duyệt nào phát hiện ra rằng họ đang tương tác với AI. Vấn đề này càng trầm trọng hơn do sự rời bỏ của những người kiểm duyệt sau những thay đổi về giá API của Reddit vào năm 2023, với 60% số người kiểm duyệt còn lại báo cáo chất lượng nội dung suy giảm đáng kể.

Sự thất bại của mạng xã hội Digg được khởi chạy lại, vốn đã sụp đổ chỉ trong hai tháng do sự tấn công của bot, đóng vai trò là một lời cảnh báo nghiêm khắc. Đồng sáng lập Reddit, Alexis Ohanian, đã ủng hộ việc khởi chạy lại Digg cụ thể để giải quyết vấn đề xác thực mà ông thấy đang gây khó khăn cho internet. Sự thất bại nhanh chóng của nó cho thấy khó khăn sâu sắc trong việc xác minh tương tác của con người trực tuyến. Google hiện đang xây dựng tương lai sản phẩm tìm kiếm của mình trên một nguồn dữ liệu không thể phân biệt đáng tin cậy giữa các bài đăng thực sự của người dùng và nội dung do AI tạo ra được thiết kế để thao túng cả người dùng và thuật toán.