GPTbot làm lung lay thỏa thuận lớn giữa Google và các trang web

Nhịp đập công nghệ - Ngày đăng : 11:05, 09/08/2023

OpenAI gần đây thừa nhận có GPTbot thu thập dữ liệu trên web để đào tạo mô hình ngôn ngữ lớn.

Về bot thu thập dữ liệu trên web, Alistair Barr, biên tập viên của trang Insider, viết: “Tôi ghét con nhện. Khi tôi đi du lịch vòng quanh thế giới vào năm 2003, ý nghĩ về những con nhện mập mạp, lông lá bò bên dưới màn chống muỗi đã khiến tôi thao thức trong nhiều đêm nhiệt đới. Hầu hết mọi người không biết rằng có những con nhện kỹ thuật số đang bò khắp các trang web mà bạn đọc và tạo ra. Hoạt động tích cực nhất có lẽ là Googlebot, tự động thu thập thông tin web để sau này Google có thể xếp hạng và hiển thị thông tin đó trong kết quả tìm kiếm. Ngay bây giờ, có một số con nhện kỹ thuật số đang thu thập những từ tôi đã viết ở đây, điều này thật đáng sợ.

Một số trình thu thập dữ liệu kỹ thuật số này cũng cực kỳ hữu ích. Lấy ví vụ cuốn sách tôi viết về những chuyến du lịch của mình vào năm 2003. Khi Googlebot thu thập dữ liệu trang web có sách của tôi, tôi rất vui vì sau này khi người khác tìm kiếm sách du lịch, họ có thể được đưa đến với sách này. Có thể họ sẽ mua và đọc nó.

Đây là món hời lớn đã làm cho nền kinh tế internet phát triển mạnh: Google thu thập nội dung của bạn và gửi cho bạn lưu lượng truy cập để bạn có động cơ tiếp tục đăng thông tin trực tuyến".

GPTbot làm lung lay thỏa thuận lớn giữa Google và các trang web

Giờ đây, sự trỗi dậy của generative AI và các mô hình ngôn ngữ lớn đang làm lung lay thỏa thuận này. OpenAI ("cha đẻ" ChatGPT) gần đây đã thừa nhận rằng công ty có một trong những con nhện kỹ thuật số trên web. Nó được gọi là GPTbot và đang được sử dụng để tìm kiếm, thu thập nội dung trực tuyến để đào tạo mô hình AI. GPT-5, mô hình ngôn ngữ lớn tiếp theo của OpenAI, có thể sẽ được đào tạo dựa trên dữ liệu do GPTbot thu thập.

GPT-4, ChatGPT và các mô hình ngôn ngữ lớn mạnh mẽ khác trả lời ngay các câu hỏi một cách thông minh, do đó người dùng không cần phải chuyển đến nguồn thông tin gốc. Đây có thể là một trải nghiệm tuyệt vời cho người dùng, nhưng sẽ ảnh hưởng đến động cơ chia sẻ thông tin chất lượng cao và miễn phí trực tuyến.

Tại sao bất kỳ nhà sản xuất nội dung trực tuyến miễn phí nào lại để OpenAI thu thập tài liệu của họ khi dữ liệu đó sẽ được sử dụng để huấn luyện các mô hình ngôn ngữ mạnh mẽ trong tương lai, sau đó cạnh tranh với người sáng tạo bằng cách kéo người dùng ra khỏi trang web của họ? Điều này đã xảy ra, chẳng hạn như có ít người truy cập trang Stack Overflow hơn trước để tìm sự trợ giúp về lập trình phần mềm.

Tự hủy

“Để GPTbot của OpenAI thu thập dữ liệu trang web của bạn là hành động tự hủy”. Nhận thức này đang lan truyền khá nhanh trong các cộng đồng trực tuyến. The Verge, ấn phẩm tin tức kỹ thuật số cạnh tranh với trang Insider, có vẻ đã thực hiện các bước để chặn GPTbot.

Không rõ GPTbot của OpenAI đã ẩn nấp trên mạng trong bao lâu. OpenAI gần đây đã công bố một cách để chặn GPTbot, sử dụng giao thức phổ biến có tên là robots.txt. Một số người sáng tạo đã triển khai điều này, song có người thắc mắc GPTbot đã bí mật thu thập dữ liệu trực tuyến của mọi người trong bao nhiêu tháng hay năm rồi.

"Cuối cùng, sau khi thu thập tất cả nội dung có bản quyền của bạn để xây dựng sản phẩm độc quyền cho họ, OpenAI cung cấp cho bạn một cách để chặn không cho nội dung của bạn được sử dụng để cải thiện sản phẩm của họ", Prasad Dhumal, nhà tư vấn tối ưu hóa công cụ tìm kiếm, viết trên X (Twitter) trong tuần này.

"Bây giờ chúng ta đang chặn một trong những bot thu thập dữ liệu của OpenAI. Bạn cũng có thể làm như vậy. Tôi không biết liệu đây có phải là bot bí mật mà chúng ta trước đây không thể chặn được hay không, hoặc liệu nó vẫn đang được sử dụng", Neil Clarke, biên tập viên của Clarkesworld - tạp chí khoa học viễn tưởng và giả tưởng, bình luận.

Niềm tin tan biến

Alistair Barr đã hỏi Neil Clarke về quyết định của anh ấy. Câu trả lời của Neil Clarke cho thấy niềm tin giữa những người sáng tạo nội dung trực tuyến với các công ty AI đã tan biến nhanh như thế nào.

"OpenAI và những người sáng tạo AI khác đã nhiều lần chứng minh rằng họ không tôn trọng quyền của tác giả, nghệ sĩ và các chuyên gia sáng tạo khác. Sản phẩm của họ phần lớn dựa trên các tác phẩm có bản quyền của người khác, được lấy mà không xin phép hoặc bồi thường. Họ liên tục bảo vệ việc sử dụng các phương pháp này và chỉ mới tiết lộ GPTbot gần đây. Không chắc rằng việc chọn không tham gia CCBot sẽ đủ để tránh bị OpenAI thu thập nội dung", Neil Clarke viết trong một email.

CCBot là con nhện kỹ thuật số khác hoạt động trên web để thu thập tất cả nội dung. CCBot được điều hành bởi tổ chức Common Crawl - nhà cung cấp dữ liệu đào tạo chính cho các mô hình AI. Common Crawl thường xuyên lưu trữ tất cả thông tin này, vì vậy ngay cả khi bạn chặn bot của họ bây giờ, dữ liệu của bạn có thể đã bị thu thập trước đây.

Neil Clarke nói: "Tôi không biết có ai đã thành công trong việc thuyết phục Common Crawl loại bỏ dữ liệu. Tôi đã thử, nhưng không nhận được phản hồi nào".

Hiện OpenAI mặc định sẽ lấy dữ liệu của mọi người và người sáng tạo phải thực hiện các bước để từ chối, chủ động chặn GPTbot. Cách tiếp cận "chọn tham gia" chứ không phải "từ chối tham gia" sẽ đòi hỏi OpenAI phải yêu cầu sự cho phép trước.

Trang Insider đã hỏi OpenAI về tất cả những điều này nhưng chưa nhận được câu trả lời.

Trả tiền cho dữ liệu đào tạo AI

OpenAI đã tôn trọng một số dữ liệu trực tuyến. GPTbot hiện được thiết kế để loại bỏ các nguồn yêu cầu truy cập qua cổng thanh toán và xóa các nguồn khác đã biết đến là thu thập thông tin nhận dạng cá nhân.

OpenAI gần đây cũng công bố một thỏa thuận với Associated Press (AP), trong đó công ty sẽ trả tiền để cấp phép nội dung AP cho dữ liệu đào tạo AI.

Nếu đã trả tiền cho dữ liệu này, tại sao OpenAI không trả tiền cho thông tin của những người khác? Insider đã hỏi OpenAI nhưng không nhận được câu trả lời.

“Chặn GPTbot”

OpenAI đã không liên hệ với Neil Clarke về việc trả tiền cho nội dung trực tuyến của anh ấy.

"Chúng tôi chưa được OpenAI đề nghị cấp phép cho các tác phẩm mà chúng tôi đã xuất bản. Chúng tôi sẽ không cởi mở về điều này. Tôi không thể nghĩ ra bất cứ điều gì OpenAI có thể nói hoặc làm để thay đổi quan điểm của tôi", Neil Clarke chia sẻ với Insider.

Lời khuyên của Neil Clarke dành cho những người sáng tạo nội dung trực tuyến khác khi nói đến GPTbot là gì?

"Tóm lại, tôi muốn nói chặn nó và đề nghị họ liên hệ với các nhà làm luật để bày tỏ mối lo ngại về các phương pháp thu thập dữ liệu trong quá khứ, hiện tại và tương lai", ông nói.

Khi Googlebot duyệt qua một trang web và thu thập nội dung, quá trình đó dẫn đến việc đưa người dùng đến trang gốc đã tạo ra thông tin. Đó là phần thưởng và thỏa thuận thiết yếu. Vậy động cơ mà OpenAI đưa ra là gì để những người sáng tạo nội dung này cho phép GPTbot duyệt qua và thu thập dữ liệu trên các trang web của họ?

Sơn Vân