Nhịp đập khoa học

Các bot mới của Meta thu thập dữ liệu web lén lút để đào tạo AI, chỉ 1 đến 1,5% trang hàng đầu chặn được

Sơn Vân • 21/08/2024 18:40

Meta Platforms gần đây đã tung ra các bot mới có thể thu thập dữ liệu web cho mô hình trí tuệ nhân tạo (AI) và sản phẩm liên quan mà ít trang chặn được.

Các bot mới này có các tính năng khiến chủ sở hữu trang web khó chặn nội dung của họ bị sao chép và thu thập.

Theo Meta Platforms, bot Meta-ExternalAgent "dành cho các trường hợp sử dụng như đào tạo các mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp".

Có tên Meta-ExternalFetcher, bot thứ hai liên quan đến các dịch vụ trợ lý AI của Meta Platforms và thu thập liên kết web để hỗ trợ những chức năng sản phẩm cụ thể.

Hai bot này lần đầu tiên xuất hiện vào khoảng tháng 7, theo trang web lưu trữ của Meta Platforms được phân tích bởi Originality.ai - công ty khởi nghiệp chuyên phát hiện nội dung AI.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép.

Robots.txt bị đe dọa

Các công ty khởi nghiệp và gã khổng lồ công nghệ đang chạy đua để xây dựng mô hình AI mạnh mẽ nhất. Một thành phần quan trọng là dữ liệu đào tạo chất lượng cao. Một trong những cách chính để thu thập dữ liệu này là gửi các bot lên web để sao chép và thu thập nội dung trực tuyến. Google, OpenAI, Anthropic và một số công ty AI khác đều có những bot này.

Nếu muốn chặn những bot như vậy, chủ sở hữu nội dung sử dụng một quy tắc đã được thiết lập sẵn có tên robots.txt. Quy tắc này ngăn chặn việc tự động thu thập dữ liệu từ trang web. Đây là đoạn mã đã được sử dụng từ cuối những năm 1990 và được chấp nhận rộng rãi như một trong những quy tắc không chính thức hỗ trợ web.

Tuy nhiên, nhu cầu về dữ liệu đào tạo AI đã làm suy yếu hệ thống này. Vào tháng 6, OpenAI và Anthropic đã bị phát hiện qua mặt hoặc lách robots.txt.

Meta lách quy tắc

Meta Platforms cũng có thể đang cố gắng qua mặt robots.txt theo những cách tinh vi. Công ty mẹ Facebook thông báo rằng bot Meta-ExternalFetcher "có thể qua mặt các quy tắc robots.txt".

Trong khi đó, bot Meta-ExternalAgent thực hiện đến hai chức năng, điều khá bất thường. Một là thu thập dữ liệu đào tạo AI, trong khi chức năng còn lại là lập chỉ mục nội dung.

Chủ sở hữu trang web có thể muốn chặn Meta Platforms khỏi việc thu thập dữ liệu để đào tạo mô hình AI, nhưng cũng muốn gã khổng lồ công nghệ Mỹ lập chỉ mục trang của họ để nhiều người dùng truy cập hơn.

Việc kết hợp cả hai chức năng trong một bot duy nhất khiến việc chặn trở nên khó khăn hơn. Chỉ có 1,5% các trang web hàng đầu chặn được bot Meta-ExternalAgent, theo Originality.ai. Con số này ít hơn nhiều so với FacebookBot, trình thu thập dữ liệu Meta Platforms trước đó.

FacebookBot thu thập dữ liệu trực tuyến trong nhiều năm để đào tạo các mô hình ngôn ngữ lớn và công nghệ nhận dạng giọng nói AI của Meta Platforms. Theo Originality.ai, bot này bị gần 10% các trang web hàng đầu chặn, gồm cả Twitter và Yahoo.

Theo Originality.ai, bot mới khác là Meta-ExternalFetcher đang bị chưa đến 1% các trang web hàng đầu chặn.

Jon Gillham, Giám đốc điều hành Originality.ai, nói: "Các công ty nên cung cấp khả năng cho trang web chặn dữ liệu của họ khỏi việc bị thu thập và sử dụng để đào tạo AI mà không làm giảm khả năng hiển thị nội dung trang web trong sản phẩm của họ".

cac-bot-moi-cua-meta-thu-thap-du-lieu-web-len-lut-de-dao-tao-ai-chi-1-den-1-5-trang-hang-dau-chan-duoc.jpg — Meta Platforms gần đây tung ra các bot mới có thể thu thập dữ liệu web cho mô hình AI và sản phẩm liên quan mà ít trang chặn được - Ảnh: Internet

Phản ứng của Meta

Người phát ngôn của Meta Platforms phản bác lại điều này bằng cách nói rằng công ty đang cố gắng "giúp các nhà xuất bản dễ dàng chỉ ra sở thích của họ hơn".

"Giống như các công ty khác, chúng tôi đào tạo các mô hình AI tạo sinh của mình trên nội dung có sẵn công khai trực tuyến. Chúng tôi nhận ra rằng một số nhà xuất bản và chủ sở hữu tên miền web muốn có các tùy chọn khi nói đến trang web và AI tạo sinh của họ", người phát ngôn Meta Platforms viết trong email gửi cho trang Insider.

Meta Platforms có nhiều bot thu thập dữ liệu web để tránh "gói gọn tất cả trường hợp sử dụng dưới một tác nhân duy nhất, cung cấp nhiều sự linh hoạt hơn cho các nhà xuất bản web", người phát ngôn nói thêm.

Chủ sở hữu trang web có thể tìm thông tin về cách chặn bot mới của Meta Platforms tại đây.

Nhiều trang tin tức hàng đầu chặn SearchGPT của OpenAI thu thập dữ liệu tìm kiếm

Khoảng một tuần sau khi OpenAI ra mắt SearchGPT, một số nhà xuất bản tin tức hàng đầu đã bày tỏ rằng họ không muốn liên quan đến công cụ tìm kiếm mới của công ty khởi nghiệp này.

The New York Times và ít nhất 13 trang tin tức khác đã chặn OAI-SearchBot, bot thu thập dữ liệu web để OpenAI có thể truy xuất và hiển thị kết quả phù hợp cho người dùng SearchGPT.

Originality.ai theo dõi vấn đề này và phát hiện rằng 14 trong số 1.000 nhà xuất bản website hàng đầu đã chặn OAI-SearchBot, gồm cả Wired, The New Yorker, Vogue, Vanity Fair và GQ.

Theo Jon Gillham, Giám đốc điều hành Originality.ai, đây là điều khá khó hiểu.

“Tôi không chắc tại sao bất kỳ nhà xuất bản nào lại chặn OAI-SearchBot. Đây là lưu lượng truy cập mà các nhà xuất bản muốn và cần”, ông nói với trang Insider.

Khi công bố SearchGPT hôm 25.7, OpenAI nhấn mạnh rằng OAI-SearchBot không thu thập dữ liệu web để đào tạo các mô hình ngôn ngữ lớn. OpenAI khuyên các chủ sở hữu website nên cho phép bot mới này thu thập dữ liệu để “đảm bảo trang của bạn xuất hiện trong kết quả tìm kiếm”.

Nếu trình thu thập dữ liệu không có quyền truy cập vào mọi trang web, SearchGPT có nguy cơ kém hoàn chỉnh hơn so với công cụ tìm kiếm Google.

Trang Insider đã hỏi Jon Gillham liệu có nhà xuất bản tin tức lớn nào chặn bot tìm kiếm của Google không. Ông không biết có nhà xuất bản nào làm vậy.

GPTbot là chương trình khác của OpenAI chuyên thu thập dữ liệu web để đào tạo mô hình AI. Hàng trăm website đã chặn bot này. Điều đó có vẻ hợp lý hơn vì: "Bạn muốn lưu lượng truy cập từ công cụ tìm kiếm, nhưng không muốn cho đi nội dung của mình để đào tạo các mô hình AI có khả năng cạnh tranh với mình".

Tuy nhiên, OpenAI đã dành nhiều năm để thu thập dữ liệu trực tuyến mà không được sự cho phép. Có thể các nhà xuất bản không tin tưởng OpenAI khi "cha đẻ ChatGPT" nói rằng OAI-SearchBot sẽ không bí mật thu thập nội dung để đào tạo dữ liệu AI?

“Tôi nghĩ vậy”, Jon Gillham nói.

Một lý thuyết khác: Kết quả tìm kiếm hiện không phải lúc nào cũng đưa người dùng đến các website đã nỗ lực tạo ra nội dung gốc. Một phần mục tiêu của các công cụ tìm kiếm mới hỗ trợ AI là giữ chân người dùng bằng cách hiển thị bản tóm tắt. Nếu các nhà xuất bản không còn thấy lưu lượng truy cập khổng lồ từ công cụ tìm kiếm nữa thì việc cho phép bot thu thập dữ liệu web của họ có còn cần thiết nữa không?

Jon Gillham lưu ý rằng OpenAI đã bận rộn trong năm nay ký thỏa thuận với các nhà xuất bản để sử dụng kho dữ liệu nội dung của họ.

“Có vẻ như đây là chuỗi hành động có chủ đích của OpenAI, trước tiên là làm quen với các nhà xuất bản bằng cách ký tất cả thỏa thuận hợp tác này và sau đó công bố SearchGPT”, Gillham nói thêm.

Nhà xuất bản lớn nhất từ chối hợp tác với OpenAI là The New York Times. The New York Times đã kiện OpenAI và Microsoft, cáo buộc hai hãng công nghệ này sử dụng trái phép các tác phẩm của họ để tạo ra các sản phẩm cạnh tranh.

“Tờ The New York Times không cho phép sử dụng các tác phẩm của chúng tôi cho mục đích tìm kiếm tạo sinh hay đào tạo AI mà không có thỏa thuận bằng văn bản rõ ràng, bất kể chúng tôi có chặn hoặc hạn chế bất kỳ bot nào thu thập nội dung của chúng tôi hay không”, Charlie Stadtlander, phát ngôn viên của The New York Times, tuyên bố.

Trong đơn kiện OpenAI và Microsoft, The New York Times đã đề cập đến vấn đề các công cụ tìm kiếm ngày càng được trang bị AI và có thể làm giảm lưu lượng truy cập vào những nhà xuất bản tin tức.

“Các bị đơn sử dụng chỉ mục tìm kiếm Bing của Microsoft, sao chép và phân loại nội dung trực tuyến của The New York Times, để tạo ra các phản hồi chứa các đoạn trích chính xác và tóm tắt bài viết trên The New York Times dài và chi tiết hơn nhiều so với các công cụ tìm kiếm truyền thống. Bằng cách cung cấp nội dung The New York Times mà không có sự cho phép hoặc ủy quyền của The New York Times, các công cụ của bị đơn đã làm suy yếu và tổn hại mối quan hệ giữa The Times với độc giả của mình. Qua đó khiến The Times mất doanh thu từ đăng ký, cấp phép, quảng cáo và liên kết”, The New York Times viết trong đơn kiện.

Hôm 25.7, OpenAI ra mắt SearchGPT, công cụ tìm kiếm sử dụng AI với khả năng truy cập thông tin từ internet theo thời gian thực, tiến vào lĩnh vực do Google thống trị.

Động thái này cũng đặt OpenAI vào cuộc cạnh tranh với nhà đầu tư lớn nhất của mình là Microsoft với công cụ tìm kiếm Bing và dịch vụ mới nổi Perplexity (chatbot AI tập trung vào tìm kiếm được nhà sáng lập Amazon - Jeff Bezos và gã không lồ chip Nvidia hậu thuẫn).

OpenAI cho biết đã mở đăng ký SearchGPT, đang trong giai đoạn nguyên mẫu và được thử nghiệm với một nhóm nhỏ người dùng cùng nhà xuất bản. Công ty có kế hoạch tích hợp các tính năng tốt nhất từ SearchGPT vào ChatGPT trong tương lai.

"Các công cụ hỗ trợ AI từ OpenAI và Perplexity tái khẳng định tìm kiếm là mô hình tương tác nội dung, gây áp lực buộc Google phải làm tốt hơn trong lĩnh vực mà hãng thống trị", nhà phân tích Kingsley Crane từ hãng Canaccord Genuity nhận xét.

Google chiếm ưu thế trong thị trường công cụ tìm kiếm với 91,1% thị phần tính đến tháng 6, theo hãng phân tích web Statcounter. SearchGPT sẽ cung cấp các kết quả tìm kiếm tóm tắt với liên kết nguồn để trả lời truy vấn của người dùng, OpenAI cho biết trong một bài đăng trên blog. Người dùng cũng có thể đặt câu hỏi tiếp theo và nhận được các phản hồi theo ngữ cảnh.

OpenAI sẽ cung cấp cho các nhà xuất bản công cụ để quản lý cách nội dung của họ xuất hiện trong kết quả SearchGPT. News Corp và The Atlantic là hai trong các đối tác xuất bản của SearchGPT.

SearchGPT báo hiệu sự hợp tác chặt chẽ hơn giữa các nhà xuất bản và OpenAI, sau khi "cha đẻ ChatGPT" đạt thỏa thuận được cấp phép nội dung với các hãng thông tấn lớn như Associated Press, News Corp và Axel Springer.

"Các nhà cung cấp công cụ tìm kiếm mới hỗ trợ AI có thể gặp những thách thức riêng, với Perplexity phải đối mặt với hành động pháp lý đang chờ xử lý từ những nhà xuất bản như Wired và Forbes và Condé Nast", Kingsley Crane nói.

Các công cụ tìm kiếm lớn đã cố gắng tích hợp AI vào tìm kiếm kể từ khi ChatGPT trình làng vào tháng 11.2022. Thông qua khoản đầu tư hơn 10 tỉ USD vào OpenAI, Microsoft đã áp dụng công nghệ của công ty này cho công cụ tìm kiếm Bing. Trong khi Google đã triển khai tính năng AI cho công cụ tìm kiếm từ hội nghị nhà phát triển I/O của mình vào tháng 5.