AI & Blockchain

Cloudflare siết Google cào dữ liệu triệu website với giấy phép cho 20% internet

Sơn Vân 25/09/2025 18:12

Cloudflare giúp các website, nhà xuất bản, người sáng tạo có quyền kiểm soát lớn hơn với cách các công ty AI truy cập và sử dụng nội dung của họ.

Cloudflare vừa công bố chính sách mới mang tên Content Signals, tạo ra một giấy phép mới đầy tiềm năng cho internet, nhắm trực tiếp vào các sản phẩm tìm kiếm có tích hợp AI của Google.

Cloudflare là hãng công nghệ nổi tiếng Mỹ chuyên cung cấp hạ tầng internet, bảo mật và dịch vụ tăng tốc web. Cụ thể, Cloudflare hoạt động như mạng phân phối nội dung (CDN), tường lửa ứng dụng web (WAF), dịch vụ chống tấn công từ chối dịch vụ (DDoS) và nhiều công cụ tối ưu hóa hiệu suất website.

Đóng vai trò trung gian giữa máy chủ của website và người dùng, Cloudflare giúp tăng tốc tải trang bằng cách lưu và phân phối nội dung từ các máy chủ gần người dùng; bảo vệ website khỏi các cuộc tấn công mạng (DDoS, bot độc hại, khai thác lỗ hổng); giảm chi phí băng thông và tải cho máy chủ gốc.

Hiện Cloudflare hỗ trợ vận hành khoảng 20% lưu lượng internet toàn cầu và phục vụ hàng triệu trang web, từ các blog nhỏ đến nền tảng lớn.

Internet đang trải qua một sự thay đổi lớn, từ các công cụ tìm kiếm truyền thống sang các cỗ máy trả lời bằng AI, tạo ra các câu trả lời trực tiếp từ nội dung đã thu thập, thường không kèm theo liên kết đến trang gốc. Điều này đe dọa mô hình kinh doanh dựa trên lưu lượng truy cập ban đầu của internet, vốn thưởng cho việc tạo nội dung bằng các cú nhấp chuột, lượt xem và doanh thu.

Hầu hết công ty AI, gồm cả OpenAI, đều sử dụng các bot thu thập dữ liệu web riêng biệt cho dịch vụ tìm kiếm và AI của họ. Trong khi bot của Google thu thập dữ liệu từ các website để cung cấp cho cả kết quả tìm kiếm truyền thống lẫn công cụ trả lời bằng AI, chẳng hạn AI Overviews.

Matthew Prince, Giám đốc điều hành Cloudflare, cho biết chính sách và giấy phép bot mới từ họ nhắm vào lợi thế thu thập dữ liệu của Google và tìm cách tạo ra sân chơi công bằng hơn.

Ông chia sẻ với trang Insider: "Mọi công cụ trả lời bằng AI đều phải tuân thủ các quy tắc giống nhau. Google kết hợp bot thu thập dữ liệu cho cả tìm kiếm và công cụ trả lời bằng AI, điều này mang lại cho họ một lợi thế độc nhất và không công bằng. Chúng tôi đang làm rõ rằng giờ đây có những quy tắc khác nhau cho tìm kiếm và các công cụ trả lời bằng AI".

Cloudflare siết Google cào dữ liệu triệu website với giấy phép cho 20% internet
Cloudflare thách thức với Google AI Overviews bằng giấy phép mới cho 20% internet

Cloudflare có thể giúp chặn các bot thu thập dữ liệu cho AI

Chính sách Content Signals, được công bố hôm 24.9, xây dựng dựa trên dịch vụ quản lý bot thu thập dữ liệu web hiện có của Cloudflare, với các tín hiệu mới nhắm riêng vào các bot AI và trình cào dữ liệu.

Các website thường dùng file robots.txt để quy định bot được phép truy cập dữ liệu như thế nào. Hệ thống này có từ những ngày đầu của internet, nhưng làn sóng bot AI cào dữ liệu hiện nay khiến nó trở nên quá tải. Về bản chất, robots.txt chỉ là thỏa thuận dựa trên sự tự nguyện, nên nhiều công ty AI vẫn phớt lờ và tiếp tục thu thập dữ liệu vì nhu cầu quá lớn.

Hơn 3,8 triệu tên miền đã sử dụng dịch vụ robots.txt của Cloudflare. Cloudflare đang giới thiệu một giấy phép mới cho các website, giúp họ có thể chặn hoặc cho phép các bot AI thu thập dữ liệu một cách rõ ràng, chi tiết và mạnh mẽ hơn.

Robots.txt là file văn bản nhỏ được đặt ở thư mục gốc của một website, giống bảng nội quy cho các bot của các công cụ tìm kiếm và các dịch vụ khác khi truy cập trang. Robots.txt hướng dẫn các bot rằng chúng được phép truy cập, được thu thập dữ liệu những phần nào trên website và không được cào những phần nào.

Tại sao robots.txt lại quan trọng?

Việc tuân thủ robots.txt chỉ là một thỏa thuận ngầm nhưng đóng vai trò rất quan trọng vì một số lý do sau:

- Quản lý lưu lượng truy cập: Các bot thu thập dữ liệu (như Googlebot) truy cập liên tục vào website của bạn để cập nhật thông tin. Nếu website của bạn có hàng trăm nghìn trang, việc bot ghé thăm tất cả cùng lúc có thể làm quá tải máy chủ, gây ảnh hưởng đến trải nghiệm của người dùng thật. Robots.txt giúp bạn kiểm soát tốc độ và phạm vi truy cập của các bot.

- Bảo vệ nội dung riêng tư: Bạn có thể dùng robots.txt để ngăn các bot lập chỉ mục những trang không nên xuất hiện trên kết quả tìm kiếm, chẳng hạn các trang quản trị, giỏ hàng, trang thanh toán của khách hàng, các file nhạy cảm, dữ liệu người dùng.

- Tối ưu hóa công cụ tìm kiếm (SEO): Đôi khi bạn muốn công cụ tìm kiếm tập trung vào những nội dung quan trọng nhất. Bằng cách chặn các trang không cần thiết, bạn giúp bot dành thời gian khám phá và lập chỉ mục các trang chính, có giá trị cao hơn. Điều này giúp cải thiện hiệu quả SEO tổng thể của website.

Giấy phép mới của Cloudflare tác động gì đến Google?

Matthew Prince cho biết giấy phép này có thể mang giá trị pháp lý, đặc biệt với Google.

"Đội ngũ pháp lý của Google sẽ hiểu rõ đây là một hợp đồng với những hệ quả pháp lý nếu họ bỏ qua", Giám đốc điều hành Cloudflare nhấn mạnh.

Matthew Prince nói thêm rằng Cloudflare đang hỗ trợ khoảng 20% mạng internet, nên giấy phép mới này sẽ tự động được áp dụng cho hàng triệu website ngay trong ngày 24.9. Điều đó đặt ra một lựa chọn cho Google, Matthew Prince nói.

Gã khổng lồ công nghệ Mỹ hoặc phải ngừng thu thập dữ liệu từ các website này cho công cụ tìm kiếm của mình (đồng nghĩa bỏ lỡ một lượng lớn nội dung web), hoặc phải tuân thủ và tách biệt các bot thu thập dữ liệu của mình, một bot dành cho tìm kiếm truyền thống và một bot dành cho các công cụ trả lời bằng AI.

Việc tách riêng bot cho tìm kiếm và bot cho AI có ý nghĩa như sau:

- Bot tìm kiếm: Chỉ thu thập dữ liệu để phục vụ kết quả tìm kiếm truyền thống. Khi người dùng tìm kiếm, Google sẽ dẫn liên kết về website gốc, giúp trang vẫn có lưu lượng truy cập.

- Bot cho AI: Thu thập dữ liệu để dùng trong các công cụ trả lời bằng AI (ví dụ AI Overviews). Đó là nơi nội dung được AI tổng hợp và trả lời trực tiếp mà không nhất thiết dẫn link về nguồn gốc.

Cloudflare đã đề cập cụ thể đến AI Overviews của Google trong thông báo của mình hôm 24.9, cho biết các cài đặt mới này sẽ cho phép các website chặn bot thu thập dữ liệu cho AI Overviews và suy luận, tức là cách mô hình AI rút ra kết luận và tạo đầu ra (câu trả lời) từ dữ liệu.

"Internet không thể chờ đợi một giải pháp trong khi nội dung gốc của những người sáng tạo đang bị các công ty khác sử dụng để kiếm lợi nhuận", Matthew Prince nói.

Matthew Prince đang cố gắng ngăn chặn AI hủy diệt internet - Ảnh: Reuters
Matthew Prince nhắm thẳng đến Google bằng giấy phép mới của Cloudflare - Ảnh: Reuters

Google tuyên bố rằng các tính năng tìm kiếm mới tích hợp AI của họ vẫn gửi lưu lượng truy cập đến các website, thậm chí có thể gửi lưu lượng truy cập chất lượng cao hơn. Các lãnh đạo Google cũng nhấn mạnh họ rất quan tâm đến sự lành mạnh và sôi động của internet.

Matthew Prince tiết lộ OpenAI đang có trách nhiệm hơn trong vấn đề này bằng cách tách biệt các bot thu thập dữ liệu của mình, một bot dành cho các hoạt động AI cốt lõi và một bot khác cho chức năng tìm kiếm.

Theo dữ liệu Cloudflare, trong tuần đầu tháng 1, tỷ lệ thu thập so với lượt truy cập giới thiệu của Google là 3,3:1. Con số đó tăng vọt lên 18:1 trong tuần đầu tháng 4, rồi giảm nhẹ xuống 9:1 vào tuần đầu tháng 7.

Tỷ lệ 5:1 tuần đầu tháng 9 của Google có lẽ là nhờ công cụ tìm kiếm truyền thống, vốn vẫn hiển thị liên kết website trong nhiều kết quả. Tuy nhiên, Google ngày càng tích hợp câu trả lời kiểu chatbot AI vào dịch vụ tìm kiếm, thông qua AI Overviews và AI Mode (Chế độ AI).

Tỷ lệ thu thập so với giới thiệu truy cập là thước đo hữu ích để xem các hãng công nghệ “lấy đi” bao nhiêu và “trả lại” bao nhiêu cho website. Ví dụ, tỷ lệ 100:1 nghĩa là bot của công ty đã quét các website 100 lần nhưng chỉ gửi trả lại 1 lượt truy cập.

Bot của Anthropic đã quét các website 26.500 lần nhưng chỉ gửi trả lại 1 lượt truy cập, theo dữ liệu tuần đầu tháng 9 từ Cloudflare. Như vậy, Anthropic thu thập nội dung website rất nhiều so với số lượt truy cập mà hãng gửi trả lại. Tỷ lệ này với OpenAI tuần đầu tháng 9 là 739:1.

Điều đó khớp với báo cáo của trang Insider từ khoảng một năm trước. Khi đó, bot từ Anthropic và OpenAI quét một số website nhiều đến mức làm chi phí băng thông do lưu lượng truy cập của họ tăng vọt. Một lập trình viên web từng chứng kiến chi phí điện toán đám mây của khách hàng tăng gấp đôi chỉ trong vài tháng vì làn sóng bot AI.

Chủ sở hữu website có nhiều quyền kiểm soát hơn với bot AI

Chính sách mới của Cloudflare cho phép người sáng tạo thể hiện rõ ràng các tùy chọn về cách nội dung của họ có thể được sử dụng, bằng cách lựa chọn "Có" cho phép sử dụng nội dung hoặc "Không" cho phép dùng nội dung.

Quan trọng hơn, chính sách này phân biệt giữa các mục đích sử dụng liên quan đến AI khác nhau, gồm tìm kiếm, đầu vào AI và huấn luyện AI, đồng thời nhắc nhở các bot rằng khai báo trong robots.txt có thể mang "ý nghĩa pháp lý".

Tùy chọn tìm kiếm sẽ thông báo cho các bot rằng nội dung của một website chỉ có thể được cào để sử dụng trong các công cụ tìm kiếm truyền thống, vốn gửi người dùng đến nguồn thông tin gốc.

Tùy chọn cho dữ liệu đầu vào AI gồm các tình huống ngày càng phổ biến khi các chatbot và mô hình AI thu thập dữ liệu website để tóm tắt và đưa vào câu trả lời của AI.

Tùy chọn huấn luyện AI sẽ cho phép các website chặn bot AI cào dữ liệu để sử dụng trong quá trình tiền huấn luyện ban đầu, trong đó mô hình AI được đào tạo để hiểu thế giới một cách rộng lớn và mạnh mẽ.

"Để đảm bảo internet vẫn mở và phát triển, chúng tôi đang cung cấp cho chủ sở hữu website một cách tốt hơn để thể hiện cách các công ty được phép sử dụng nội dung của họ. Robots.txt là tài nguyên chưa được tận dụng hết. Chúng tôi có thể giúp củng cố robots.txt và làm rõ cho các công ty AI rằng họ không thể tiếp tục phớt lờ các mong muốn của người sáng tạo nội dung", Matthew Prince nhấn mạnh.

Nổi bật
      Mới nhất
      Cloudflare siết Google cào dữ liệu triệu website với giấy phép cho 20% internet
      • Mặc định

      POWERED BY ONECMS - A PRODUCT OF NEKO