Cuộc sống số

Anthropic: Công ty AI có đạo đức nhất hay ‘ăn chùa’ lớn nhất trên web?

Sơn Vân 13/04/2026 06:41

Dữ liệu mới nhất từ Cloudflare cho thấy cách Anthropic thu thập dữ liệu trên web và đóng góp ít đến mức nào.

Cloudflare theo dõi cách các bot AI thu thập dữ liệu từ website so với tần suất các nền tảng đó gửi người dùng quay trở lại thông qua liên kết giới thiệu. Tỷ lệ thu thập so với giới thiệu (crawl-to-refer) là chỉ số đơn giản nhưng rất đáng chú ý, cho thấy lượng giá trị bị khai thác so với lượng giá trị được hoàn trả.

Các số liệu đầu tháng 4 rất đáng kinh ngạc. Anthropic đứng đầu về mức chênh lệch, với tỷ lệ 8.800 trên 1. Điều đó có nghĩa là bot của công ty khởi nghiệp AI đứng sau Claude thu thập dữ liệu trang web 8.800 lần cho mỗi lượt truy cập được gửi lại.

OpenAI đứng thứ 2 với tỷ lệ 993 trên 1. Trong khi đó, Google và DuckDuckGo giữ được sự cân bằng tốt hơn giữa việc lấy dữ liệu và trả lại lưu lượng truy cập, với tỷ lệ lần lượt là 5,6 trên 1 và 1,5 trên 1.

Anthropic Công ty AI có đạo đức hay kẻ ‘ăn chùa’ lớn nhất trên web
Số lượng yêu cầu thu thập dữ liệu trên mỗi lượt truy cập web được gửi lại của Anthropic và các công ty AI khác - Ảnh: Insider

Vị trí của Anthropic đặc biệt gây chú ý, nhất là khi công ty này xây dựng danh tiếng là “có đạo đức”. Danh tiếng đó khiến Anthropic trở thành lựa chọn ưu tiên của một số người dùng muốn ủng hộ việc phát triển AI có trách nhiệm hơn. Tuy nhiên, dữ liệu này cho thấy một khía cạnh khác của đạo đức: cách các công ty tương tác với hệ sinh thái web rộng lớn, nơi cung cấp thông tin cho đầu ra của các mô hình AI.

Trong lịch sử, internet vận hành dựa trên một thỏa thuận ngầm: các website cho phép công cụ tìm kiếm thu thập và lập chỉ mục nội dung miễn phí, đổi lại họ nhận được lưu lượng truy cập để kiếm tiền. AI tạo sinh đã phá vỡ thỏa thuận đó. Các chatbot AI ngày càng cung cấp câu trả lời trực tiếp, làm giảm nhu cầu người dùng nhấp vào liên kết dẫn đến nguồn ban đầu.

Điều này dẫn đến hệ thống thu được nhiều giá trị hơn là trả lại và trong một số trường hợp, làm tăng chi phí với chủ sở hữu trang web do hoạt động của bot dày đặc.

Anthropic Công ty AI có đạo đức nhất hay ‘ăn chùa’ lớn nhất trên web
Anthropic thu thập dữ liệu dữ liệu web rất nhiều nhưng trả lại lượt truy cập ít nhất - Ảnh: MTG

Trước đây, Anthropic đã đặt câu hỏi về phương pháp của Cloudflare và cho rằng lưu lượng truy cập giới thiệu đang tăng nhờ các tính năng mới. Dù vậy, xu hướng chung rộng hơn thì rất khó có thể phớt lờ. Anthropic không phản hồi về câu chuyện trên.

Nếu động cơ kinh tế của web phụ thuộc vào lưu lượng truy cập và các lượt giới thiệu, những tỷ lệ này đặt ra một câu hỏi mang tính nền tảng: điều gì sẽ khuyến khích việc chia sẻ thông tin đã được kiểm chứng trên mạng trong tương lai?

Cloudflare đang thử nghiệm một thị trường mới dành cho nội dung web. Song vẫn chưa rõ những nỗ lực như vậy có thành công hay không. Xét cho cùng, còn gì hấp dẫn hơn việc sử dụng nội dung của người khác miễn phí?

Cloudflare siết Anthropic, Google và các công ty AI thu thập dữ liệu hàng triệu website

Cloudflare là một trong những nhà cung cấp hạ tầng internet quan trọng nhất thế giới, chuyên cung cấp dịch vụ mạng phân phối nội dung (CDN), bảo mật web và định tuyến lưu lượng. Nói một cách khác, Cloudflare đóng vai trò như “đường cao tốc” giúp dữ liệu từ máy chủ của các dịch vụ lớn đến được người dùng nhanh, ổn định và an toàn hơn.

Cloudflare giúp tăng tốc tải trang bằng cách lưu và phân phối nội dung từ các máy chủ gần người dùng; bảo vệ website khỏi các cuộc tấn công mạng (DDoS, bot độc hại, khai thác lỗ hổng); giảm chi phí băng thông và tải cho máy chủ gốc.

Công ty Mỹ hiện xử lý khoảng 20% lưu lượng web toàn cầu, một con số cực kỳ lớn với bất kỳ đơn vị hạ tầng internet nào.

Internet đang trải qua một sự thay đổi lớn, từ các công cụ tìm kiếm truyền thống sang các cỗ máy trả lời bằng AI, tạo ra các câu trả lời trực tiếp từ nội dung đã thu thập, thường không kèm theo liên kết đến trang gốc. Điều này đe dọa mô hình kinh doanh dựa trên lưu lượng truy cập ban đầu của internet, vốn thưởng cho việc tạo nội dung bằng các cú nhấp chuột, lượt xem và doanh thu.

Hầu hết công ty AI đều sử dụng các bot thu thập dữ liệu web riêng biệt cho dịch vụ tìm kiếm và AI của họ. Trong khi bot của Google thu thập dữ liệu từ các website để cung cấp cho cả kết quả tìm kiếm truyền thống lẫn công cụ trả lời bằng AI, chẳng hạn AI Overviews.

Hồi tháng 9.2025, Cloudflare công bố chính sách mang tên Content Signals, tạo ra một giấy phép mới đầy tiềm năng cho internet, nhắm trực tiếp vào các sản phẩm tìm kiếm có tích hợp AI của Google.

Matthew Prince, Giám đốc điều hành Cloudflare, cho biết chính sách và giấy phép bot mới từ họ nhắm vào lợi thế thu thập dữ liệu của Google và tìm cách tạo ra sân chơi công bằng hơn.

Ông chia sẻ với trang Insider: "Mọi công cụ trả lời bằng AI đều phải tuân thủ các quy tắc giống nhau. Google kết hợp bot thu thập dữ liệu cho cả tìm kiếm và công cụ trả lời bằng AI, điều này mang lại cho họ một lợi thế độc nhất và không công bằng. Chúng tôi đang làm rõ rằng giờ đây có những quy tắc khác nhau cho tìm kiếm và các công cụ trả lời bằng AI".

Chính sách Content Signals xây dựng dựa trên dịch vụ quản lý bot thu thập dữ liệu web hiện có của Cloudflare, với các tín hiệu mới nhắm riêng vào các bot AI và trình cào dữ liệu.

Các website thường dùng file robots.txt để quy định bot được phép truy cập dữ liệu như thế nào. Hệ thống này có từ những ngày đầu của internet, nhưng làn sóng bot AI cào dữ liệu hiện nay khiến nó trở nên quá tải. Về bản chất, robots.txt chỉ là thỏa thuận dựa trên sự tự nguyện, nên nhiều công ty AI vẫn phớt lờ và tiếp tục thu thập dữ liệu vì nhu cầu quá lớn.

Hơn 3,8 triệu tên miền đã sử dụng dịch vụ robots.txt của Cloudflare. Cloudflare giới thiệu một giấy phép mới cho các website, giúp họ có thể chặn hoặc cho phép các bot AI thu thập dữ liệu một cách rõ ràng, chi tiết và mạnh mẽ hơn.

Robots.txt là file văn bản nhỏ được đặt ở thư mục gốc của một website, giống bảng nội quy cho các bot của các công cụ tìm kiếm và các dịch vụ khác khi truy cập trang. Robots.txt hướng dẫn các bot rằng chúng được phép truy cập, được thu thập dữ liệu những phần nào trên website và không được cào những phần nào.

Matthew Prince cho biết giấy phép này có thể mang giá trị pháp lý, đặc biệt với Google.

"Đội ngũ pháp lý của Google sẽ hiểu rõ đây là một hợp đồng với những hệ quả pháp lý nếu họ bỏ qua", Giám đốc điều hành Cloudflare nhấn mạnh.

Ông nói thêm rằng giấy phép mới này sẽ tự động được áp dụng cho hàng triệu website mà Cloudflare đang hỗ trợ. Điều đó đặt ra một lựa chọn cho Google.

Gã khổng lồ công nghệ Mỹ hoặc phải ngừng thu thập dữ liệu từ các website này cho công cụ tìm kiếm của mình (đồng nghĩa bỏ lỡ một lượng lớn nội dung web), hoặc phải tuân thủ và tách biệt các bot thu thập dữ liệu của mình, một bot dành cho tìm kiếm truyền thống và một bot dành cho các công cụ trả lời bằng AI.

Việc tách riêng bot cho tìm kiếm và bot cho AI có ý nghĩa như sau:

- Bot tìm kiếm: Chỉ thu thập dữ liệu để phục vụ kết quả tìm kiếm truyền thống. Khi người dùng tìm kiếm, Google sẽ dẫn liên kết về website gốc, giúp trang vẫn có lưu lượng truy cập.

- Bot cho AI: Thu thập dữ liệu để dùng trong các công cụ trả lời bằng AI (ví dụ AI Overviews). Đó là nơi nội dung được AI tổng hợp và trả lời trực tiếp mà không nhất thiết dẫn link về nguồn gốc.

Google tuyên bố rằng các tính năng tìm kiếm tích hợp AI của họ vẫn gửi lưu lượng truy cập đến các website, thậm chí có thể gửi lưu lượng truy cập chất lượng cao hơn. Các lãnh đạo Google cũng nhấn mạnh họ rất quan tâm đến sự lành mạnh và sôi động của internet.

Matthew Prince tiết lộ OpenAI đang có trách nhiệm hơn trong vấn đề này bằng cách tách biệt các bot thu thập dữ liệu của mình, một bot dành cho các hoạt động AI cốt lõi và một bot khác cho chức năng tìm kiếm.

Nổi bật
      Mới nhất
      Anthropic: Công ty AI có đạo đức nhất hay ‘ăn chùa’ lớn nhất trên web?
      • Mặc định

      POWERED BY ONECMS - A PRODUCT OF NEKO