Hotline quảng cáo: 076 4575985 Hotline nội dung: 0934.999945

GPTbot làm lung lay thỏa thuận lớn giữa Google và các trang web

Sơn Vân | 09/08/2023, 11:05

OpenAI gần đây thừa nhận có GPTbot thu thập dữ liệu trên web để đào tạo mô hình ngôn ngữ lớn.

Về bot thu thập dữ liệu trên web, Alistair Barr, biên tập viên của trang Insider, viết: “Tôi ghét con nhện. Khi tôi đi du lịch vòng quanh thế giới vào năm 2003, ý nghĩ về những con nhện mập mạp, lông lá bò bên dưới màn chống muỗi đã khiến tôi thao thức trong nhiều đêm nhiệt đới. Hầu hết mọi người không biết rằng có những con nhện kỹ thuật số đang bò khắp các trang web mà bạn đọc và tạo ra. Hoạt động tích cực nhất có lẽ là Googlebot, tự động thu thập thông tin web để sau này Google có thể xếp hạng và hiển thị thông tin đó trong kết quả tìm kiếm. Ngay bây giờ, có một số con nhện kỹ thuật số đang thu thập những từ tôi đã viết ở đây, điều này thật đáng sợ.

Một số trình thu thập dữ liệu kỹ thuật số này cũng cực kỳ hữu ích. Lấy ví vụ cuốn sách tôi viết về những chuyến du lịch của mình vào năm 2003. Khi Googlebot thu thập dữ liệu trang web có sách của tôi, tôi rất vui vì sau này khi người khác tìm kiếm sách du lịch, họ có thể được đưa đến với sách này. Có thể họ sẽ mua và đọc nó.

Đây là món hời lớn đã làm cho nền kinh tế internet phát triển mạnh: Google thu thập nội dung của bạn và gửi cho bạn lưu lượng truy cập để bạn có động cơ tiếp tục đăng thông tin trực tuyến".

GPTbot làm lung lay thỏa thuận lớn giữa Google và các trang web

Giờ đây, sự trỗi dậy của generative AI và các mô hình ngôn ngữ lớn đang làm lung lay thỏa thuận này. OpenAI ("cha đẻ" ChatGPT) gần đây đã thừa nhận rằng công ty có một trong những con nhện kỹ thuật số trên web. Nó được gọi là GPTbot và đang được sử dụng để tìm kiếm, thu thập nội dung trực tuyến để đào tạo mô hình AI. GPT-5, mô hình ngôn ngữ lớn tiếp theo của OpenAI, có thể sẽ được đào tạo dựa trên dữ liệu do GPTbot thu thập.

GPT-4, ChatGPT và các mô hình ngôn ngữ lớn mạnh mẽ khác trả lời ngay các câu hỏi một cách thông minh, do đó người dùng không cần phải chuyển đến nguồn thông tin gốc. Đây có thể là một trải nghiệm tuyệt vời cho người dùng, nhưng sẽ ảnh hưởng đến động cơ chia sẻ thông tin chất lượng cao và miễn phí trực tuyến.

Tại sao bất kỳ nhà sản xuất nội dung trực tuyến miễn phí nào lại để OpenAI thu thập tài liệu của họ khi dữ liệu đó sẽ được sử dụng để huấn luyện các mô hình ngôn ngữ mạnh mẽ trong tương lai, sau đó cạnh tranh với người sáng tạo bằng cách kéo người dùng ra khỏi trang web của họ? Điều này đã xảy ra, chẳng hạn như có ít người truy cập trang Stack Overflow hơn trước để tìm sự trợ giúp về lập trình phần mềm.

Tự hủy

“Để GPTbot của OpenAI thu thập dữ liệu trang web của bạn là hành động tự hủy”. Nhận thức này đang lan truyền khá nhanh trong các cộng đồng trực tuyến. The Verge, ấn phẩm tin tức kỹ thuật số cạnh tranh với trang Insider, có vẻ đã thực hiện các bước để chặn GPTbot.

Không rõ GPTbot của OpenAI đã ẩn nấp trên mạng trong bao lâu. OpenAI gần đây đã công bố một cách để chặn GPTbot, sử dụng giao thức phổ biến có tên là robots.txt. Một số người sáng tạo đã triển khai điều này, song có người thắc mắc GPTbot đã bí mật thu thập dữ liệu trực tuyến của mọi người trong bao nhiêu tháng hay năm rồi.

"Cuối cùng, sau khi thu thập tất cả nội dung có bản quyền của bạn để xây dựng sản phẩm độc quyền cho họ, OpenAI cung cấp cho bạn một cách để chặn không cho nội dung của bạn được sử dụng để cải thiện sản phẩm của họ", Prasad Dhumal, nhà tư vấn tối ưu hóa công cụ tìm kiếm, viết trên X (Twitter) trong tuần này.

"Bây giờ chúng ta đang chặn một trong những bot thu thập dữ liệu của OpenAI. Bạn cũng có thể làm như vậy. Tôi không biết liệu đây có phải là bot bí mật mà chúng ta trước đây không thể chặn được hay không, hoặc liệu nó vẫn đang được sử dụng", Neil Clarke, biên tập viên của Clarkesworld - tạp chí khoa học viễn tưởng và giả tưởng, bình luận.

Niềm tin tan biến

Alistair Barr đã hỏi Neil Clarke về quyết định của anh ấy. Câu trả lời của Neil Clarke cho thấy niềm tin giữa những người sáng tạo nội dung trực tuyến với các công ty AI đã tan biến nhanh như thế nào.

"OpenAI và những người sáng tạo AI khác đã nhiều lần chứng minh rằng họ không tôn trọng quyền của tác giả, nghệ sĩ và các chuyên gia sáng tạo khác. Sản phẩm của họ phần lớn dựa trên các tác phẩm có bản quyền của người khác, được lấy mà không xin phép hoặc bồi thường. Họ liên tục bảo vệ việc sử dụng các phương pháp này và chỉ mới tiết lộ GPTbot gần đây. Không chắc rằng việc chọn không tham gia CCBot sẽ đủ để tránh bị OpenAI thu thập nội dung", Neil Clarke viết trong một email.

CCBot là con nhện kỹ thuật số khác hoạt động trên web để thu thập tất cả nội dung. CCBot được điều hành bởi tổ chức Common Crawl - nhà cung cấp dữ liệu đào tạo chính cho các mô hình AI. Common Crawl thường xuyên lưu trữ tất cả thông tin này, vì vậy ngay cả khi bạn chặn bot của họ bây giờ, dữ liệu của bạn có thể đã bị thu thập trước đây.

Neil Clarke nói: "Tôi không biết có ai đã thành công trong việc thuyết phục Common Crawl loại bỏ dữ liệu. Tôi đã thử, nhưng không nhận được phản hồi nào".

Hiện OpenAI mặc định sẽ lấy dữ liệu của mọi người và người sáng tạo phải thực hiện các bước để từ chối, chủ động chặn GPTbot. Cách tiếp cận "chọn tham gia" chứ không phải "từ chối tham gia" sẽ đòi hỏi OpenAI phải yêu cầu sự cho phép trước.

Trang Insider đã hỏi OpenAI về tất cả những điều này nhưng chưa nhận được câu trả lời.

Trả tiền cho dữ liệu đào tạo AI

OpenAI đã tôn trọng một số dữ liệu trực tuyến. GPTbot hiện được thiết kế để loại bỏ các nguồn yêu cầu truy cập qua cổng thanh toán và xóa các nguồn khác đã biết đến là thu thập thông tin nhận dạng cá nhân.

OpenAI gần đây cũng công bố một thỏa thuận với Associated Press (AP), trong đó công ty sẽ trả tiền để cấp phép nội dung AP cho dữ liệu đào tạo AI.

Nếu đã trả tiền cho dữ liệu này, tại sao OpenAI không trả tiền cho thông tin của những người khác? Insider đã hỏi OpenAI nhưng không nhận được câu trả lời.

“Chặn GPTbot”

OpenAI đã không liên hệ với Neil Clarke về việc trả tiền cho nội dung trực tuyến của anh ấy.

"Chúng tôi chưa được OpenAI đề nghị cấp phép cho các tác phẩm mà chúng tôi đã xuất bản. Chúng tôi sẽ không cởi mở về điều này. Tôi không thể nghĩ ra bất cứ điều gì OpenAI có thể nói hoặc làm để thay đổi quan điểm của tôi", Neil Clarke chia sẻ với Insider.

Lời khuyên của Neil Clarke dành cho những người sáng tạo nội dung trực tuyến khác khi nói đến GPTbot là gì?

"Tóm lại, tôi muốn nói chặn nó và đề nghị họ liên hệ với các nhà làm luật để bày tỏ mối lo ngại về các phương pháp thu thập dữ liệu trong quá khứ, hiện tại và tương lai", ông nói.

Khi Googlebot duyệt qua một trang web và thu thập nội dung, quá trình đó dẫn đến việc đưa người dùng đến trang gốc đã tạo ra thông tin. Đó là phần thưởng và thỏa thuận thiết yếu. Vậy động cơ mà OpenAI đưa ra là gì để những người sáng tạo nội dung này cho phép GPTbot duyệt qua và thu thập dữ liệu trên các trang web của họ?

Bài liên quan

Diễn viên hài Sarah Silverman và hai tác giả kiện OpenAI, Meta vi phạm bản quyền

Diễn viên hài Sarah Silverman và hai tác giả đã đệ đơn kiện Meta Platforms và OpenAI vi phạm bản quyền với cáo buộc sử dụng nội dung của họ mà không được phép để đào tạo các mô hình ngôn ngữ trí tuệ nhân tạo (AI).

Đọc tiếp

Elon Musk nhắc đến Trung Quốc cùng ngày ra mắt startup xAI cạnh tranh với OpenAI, Google

xAI của Elon Musk đua với OpenAI để tạo siêu AI thông minh hơn con người

Hàng triệu ánh mắt đổ dồn vào Worldcoin của CEO OpenAI

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Thủ tướng: Lãng phí diễn ra khá phổ biến, gây nhiều hệ lụy nghiêm trọng

2 giờ trước Theo dòng thời sự

Thủ tướng chỉ rõ công tác phòng, chống lãng phí là một trong những yếu tố quan trọng để gia tăng sức mạnh về nguồn lực, đảm bảo an sinh xã hội, thúc đẩy phát triển, làm giàu cho đất nước.

Mỹ bỏ phiếu chống nghị quyết lên án Nga về cuộc chiến Ukraine

Đài CNN đưa tin trong cuộc họp Đại hội đồng Liên Hợp Quốc ngày 24.2, Mỹ bất ngờ bỏ phiếu chống...
Đơn đặt hàng chip Nvidia H20 tăng vọt khi các hãng Trung Quốc đua nhau áp dụng mô hình AI của DeepSeek

Các công ty Trung Quốc đang đẩy mạnh đặt hàng chip trí tuệ nhân tạo (AI) H20 của Nvidia do...
Hơn 1.000 chuyên gia về công nghệ bán dẫn, AI quốc tế sẽ đến Việt Nam

Sự kiện quy tụ hơn 1.000 lãnh đạo doanh nghiệp, chuyên gia, trong đó có sự góp mặt của các...

Đừng bỏ lỡ

Khởi tố Chủ tịch Hội nông dân xã đột nhập nhà Phó chủ tịch HĐND tỉnh cướp tài sản

8 phút trước Sự kiện

Ngày 25.2, Công an tỉnh Bình Phước cho biết Cơ quan CSĐT Công an thị xã Chơn Thành đã khởi tố bị can và bắt tạm giam 4 tháng đối với Đỗ Tuấn Anh (sinh năm 1978, trú tại ấp 7, xã Lộc Thái, huyện Lộc Ninh) để điều tra về tội "Cướp tài sản".
Moscow sẵn sàng hợp tác khai thác đất hiếm với Mỹ ở ‘lãnh thổ lịch sử’ thuộc Nga

một giờ trước Quốc tế

Tổng thống Nga Vladimir Putin đã đề nghị Mỹ hợp tác trong khai thác các mỏ kim loại đất hiếm của Nga, mở ra triển vọng về một thỏa thuận kinh tế mới giữa hai cường quốc.
Chiếm đoạt tài sản với chiêu trò lừa đảo bán pin xe máy điện

1 giờ trước Khoa học - công nghệ

Theo phân tích từ Cục An toàn thông tin, thủ đoạn chung của những kẻ lừa đảo là tạo lập các trang mạng xã hội giả mạo, đăng tải thông tin, hình ảnh về sản phẩm và rao bán với giá thấp hơn nhiều giá thị trường.
Băn khoăn đề xuất giao dịch tiền mã hóa tại trung tâm tài chính

1 giờ trước Tài chính và đầu tư

Theo các chuyên gia, việc tham gia đầu tư tiền số là chọn lựa của cá nhân, tuy nhiên, nếu xem việc cho phép niêm yết và giao dịch sàn tiền mã hóa chính thức tại trung tâm tài chính quốc tế thì cần cân nhắc.
Mỹ - Ukraine sắp đạt thỏa thuận tài nguyên

1 giờ trước Chuyển động

Tờ The New York Times dẫn lời Tổng thống Mỹ Donald Trump và Phó thủ tướng Ukraine Olha Stefanishyna ngày 24.2 tuyên bố hai nước đang tiến gần đến một thỏa thuận trao cho Washington một phần doanh thu từ tài nguyên của Kyiv.

Mới nhất

Thủ tướng: Lãng phí diễn ra khá phổ biến, gây nhiều hệ lụy nghiêm trọng

2 giờ trước Theo dòng thời sự

Thủ tướng chỉ rõ công tác phòng, chống lãng phí là một trong những yếu tố quan trọng để gia tăng sức mạnh về nguồn lực, đảm bảo an sinh xã hội, thúc đẩy phát triển, làm giàu cho đất nước.
Mỹ bỏ phiếu chống nghị quyết lên án Nga về cuộc chiến Ukraine

2 giờ trước Chuyển động

Đài CNN đưa tin trong cuộc họp Đại hội đồng Liên Hợp Quốc ngày 24.2, Mỹ bất ngờ bỏ phiếu chống nghị quyết lên án Nga về cuộc chiến Ukraine do châu Âu đệ trình. Diễn biến mới nhất đánh dấu thay đổi chính sách đáng kinh ngạc của Washington.
Đơn đặt hàng chip Nvidia H20 tăng vọt khi các hãng Trung Quốc đua nhau áp dụng mô hình AI của DeepSeek

3 giờ trước Thế giới số

Các công ty Trung Quốc đang đẩy mạnh đặt hàng chip trí tuệ nhân tạo (AI) H20 của Nvidia do nhu cầu tăng vọt với các mô hình AI nguồn mở của DeepSeek, theo sáu người am hiểu vấn đề.
Apple đầu tư 500 tỉ USD vào Mỹ để tạo 20.000 việc làm về nghiên cứu, ông Trump cám ơn Tim Cook

14 giờ trước Thế giới số

Apple hôm 24.2 cho biết sẽ chi 500 tỉ USD cho các khoản đầu tư tại Mỹ trong 4 năm tới, gồm cả nhà máy khổng lồ ở bang Texas dành cho các máy chủ trí tuệ nhân tạo (AI), đồng thời bổ sung khoảng 20.000 việc làm trong lĩnh vực nghiên cứu và phát triển trên khắp cả nước.
Hơn 1.000 chuyên gia về công nghệ bán dẫn, AI quốc tế sẽ đến Việt Nam

14 giờ trước Khoa học - công nghệ

Sự kiện quy tụ hơn 1.000 lãnh đạo doanh nghiệp, chuyên gia, trong đó có sự góp mặt của các tên tuổi lớn như Google DeepMind, IBM, Intel, TSMC, Samsung…