AI & Blockchain

Xuất hiện điểm nóng trong cuộc chiến giữa công ty 'đám mây' và công ty AI

Bùi Tú • 06/08/2025 07:00

Cloudflare vừa công khai cáo buộc startup trí tuệ nhân tạo chuyên về tìm kiếm – Perplexity – cố tình né tránh các biện pháp giới hạn truy cập, vốn được thiết lập để chặn bot AI khỏi một số website.

Theo bài viết blog mới đây từ gã khổng lồ hạ tầng Internet, Perplexity bị cho là đã ngụy trang danh tính các trình thu thập dữ liệu (crawler) của mình nhằm vượt qua các rào cản kỹ thuật – hành vi đang khiến dư luận lo ngại về cách công ty này thu thập nội dung từ web.

Perplexity bị cáo buộc cố ý né tránh các hạn chế truy cập website

Cloudflare – một trong những nhà cung cấp hạ tầng Internet lớn nhất thế giới – cho biết họ đã nhận được nhiều khiếu nại từ quản trị viên các website, những người phát hiện ra rằng các bot AI của Perplexity vẫn tiếp tục truy cập nội dung của họ, bất chấp việc đã bị chặn rõ ràng.

Các biện pháp chặn này được thực hiện thông qua file robots.txt tiêu chuẩn và luật tường lửa ứng dụng web (WAF) – những công cụ phổ biến để kiểm soát quyền truy cập của crawler.

Để điều tra, Cloudflare đã tiến hành thử nghiệm bằng cách thiết lập các website với quy tắc chặn nhắm thẳng vào bot của Perplexity. Ban đầu, bot của công ty này tự nhận diện mình một cách minh bạch với tên “PerplexityBot” hoặc “Perplexity-User”. Tuy nhiên, khi những danh tính đó bị chặn, Cloudflare cáo buộc rằng các bot đã bắt đầu ngụy trang, thay đổi định danh người dùng (user-agent) để giả mạo trình duyệt Google Chrome chạy trên hệ điều hành macOS. Cách làm này cho phép bot trông giống như người dùng thông thường, thay vì một trình thu thập dữ liệu tự động.

Không chỉ vậy, Cloudflare cũng phát hiện Perplexity sử dụng kỹ thuật “xoay IP” (IP rotation) – tức là thay đổi liên tục các địa chỉ IP không có trong tài liệu chính thức về bot của công ty. Thêm vào đó, các bot còn luân chuyển giữa các hệ thống mạng tự trị (ASN) – những dãy số định danh mạng do một tổ chức kiểm soát – để tránh bị phát hiện. Cloudflare cho biết các hành vi này được ghi nhận trên hàng chục nghìn tên miền, với hàng triệu yêu cầu được gửi đi mỗi ngày.

Tiền lệ và tranh cãi trong quá khứ

Đây không phải lần đầu tiên Perplexity bị chỉ trích về cách thu thập dữ liệu không minh bạch. Vào năm 2023, công ty từng vấp phải phản ứng dữ dội khi bị cáo buộc truy cập nội dung sau tường phí (paywall) và phớt lờ chỉ dẫn trong file robots.txt. Khi đó, CEO Aravind Srinivas của Perplexity cho rằng đó là lỗi do các bot bên thứ ba mà nền tảng sử dụng, chứ không phải từ hệ thống của công ty.

Tuy nhiên, báo cáo mới nhất của Cloudflare hàm ý rằng chính Perplexity đang trực tiếp thực hiện các hành vi lách luật này. Bài blog cho thấy các bot của công ty đã có hệ thống hoạt động nhằm vượt qua các biện pháp bảo vệ tiêu chuẩn trên website, ở quy mô lớn.

Đáp lại, Cloudflare đã gỡ Perplexity khỏi danh sách các bot đã được xác thực – danh hiệu dành cho những trình thu thập dữ liệu tuân thủ các nguyên tắc công nghiệp. Đồng thời, công ty cũng triển khai thêm các công cụ giúp chủ website chặn hành vi “thu thập lén lút” của Perplexity.

Perplexity phủ nhận cáo buộc

Phía Perplexity phủ nhận toàn bộ các cáo buộc. Trong tuyên bố gửi đến tạp chí The Verge, người phát ngôn Jesse Dwyer gọi những phát hiện của Cloudflare là “chiêu trò gây chú ý”, đồng thời nói rằng: “Có rất nhiều hiểu lầm trong bài viết blog.” Cho đến hiện tại, Perplexity vẫn chưa đưa ra phản hồi kỹ thuật chi tiết nào để phản biện các cáo buộc cụ thể từ Cloudflare.

Trong khi đó, CEO của Cloudflare – ông Matthew Prince – tiếp tục bày tỏ lo ngại về ảnh hưởng của các công cụ AI đối với quyền sở hữu và bảo vệ nội dung trên Internet. Gần đây ông đã gọi trí tuệ nhân tạo là một “mối đe dọa tồn vong” đối với các nhà xuất bản trực tuyến. Tháng trước, Cloudflare đã bắt đầu cung cấp tuỳ chọn cho các chủ website yêu cầu các công ty AI trả phí để được truy cập nội dung, đồng thời mặc định chặn các bot AI đã biết.

Khi tranh cãi vẫn còn tiếp diễn, vụ việc một lần nữa phản ánh mâu thuẫn ngày càng căng thẳng giữa người tạo nội dung, nhà cung cấp hạ tầng và các công ty AI, trong bối cảnh ngày càng nhiều nội dung web được sử dụng để huấn luyện và vận hành các mô hình học máy.

Cần làm gì để quản lý dữ liệu và quyền riêng tư trên đám mây

Mã hóa dữ liệu trước khi tải lên: Đây là cách hiệu quả nhất để đảm bảo không ai, kể cả nhà cung cấp dịch vụ hay AI, có thể đọc được nội dung tệp của bạn. Bạn có thể sử dụng các phần mềm mã hóa như 7-Zip hoặc VeraCrypt để mã hóa các tệp nhạy cảm (như hợp đồng, tài liệu cá nhân) rồi mới tải lên đám mây.

Cẩn trọng với tính năng AI: Các dịch vụ đám mây có thể có những tính năng AI tiện ích (ví dụ: tìm kiếm ảnh theo chủ đề). Hãy xem xét kỹ lưỡng và chỉ bật những tính năng mà bạn cảm thấy cần thiết.

Kiểm soát quyền truy cập tệp đã chia sẻ: Khi chia sẻ tệp, hãy giới hạn quyền truy cập chỉ cho những người thực sự cần. Đặt tệp ở chế độ "chỉ xem" hoặc "chỉ nhận xét" thay vì "chỉnh sửa" để tránh rủi ro. Bạn cũng nên thường xuyên kiểm tra lại và thu hồi quyền truy cập của những người không còn liên quan.

Xuất hiện điểm nóng trong cuộc chiến giữa công ty 'đám mây' và công ty AI

công ty AI

cloudflare

perplexity