Nhịp đập khoa học

Trợ lý ảo Meta AI nói được đào tạo dựa trên hàng triệu video YouTube, Meta lên tiếng

Sơn Vân • 05/06/2024 12:33

Trợ lý ảo Meta AI tiết lộ được đào tạo dựa trên hàng triệu video YouTube. Meta Platforms không phủ nhận điều đó nhưng nói rằng chabot trí tuệ nhân tạo (AI) của hãng có thể trả lời không chính xác.

Năm ngoái, Meta Platforms (công ty mẹ Facebook và Instagram) đã phát hành Meta AI trong bối cảnh tập trung nhiều hơn vào lĩnh vực AI tạo sinh để theo kịp làn sóng quan tâm của công chúng sau khi ChatGPT ra mắt vào tháng 11.2022 và gây sốt toàn cầu. Meta Platforms đã nâng cấp Meta AI hồi tháng 4 dưới dạng chức năng trò chuyện và tạo hình ảnh AI trên các ứng dụng của mình, gồm cả Instagram và WhatsApp. Tuy nhiên đến nay, Meta Platforms vẫn chưa tiết lộ nhiều về cách Meta AI được đào tạo.

Khi trang Insider hỏi Meta về dữ liệu nó được đào tạo và cách Meta Platforms lấy dữ liệu đó, chatbot này đã đưa ra một số câu trả lời thú vị.

Meta AI nói với Insider rằng nó được huấn luyện dựa trên bộ dữ liệu lớn, gồm cả bản phiên âm từ các video YouTube. Ngoài ra, Meta AI cho biết Meta Platforms có scraper (bot quét web) riêng mang tên MSAE (Meta Scraping and Extraction), được cho trích xuất lượng lớn dữ liệu từ web để đào tạo các mô hình AI.

Scraper là chương trình máy tính được thiết kế để tự động thu thập dữ liệu từ các trang web. Nó hoạt động bằng cách mô phỏng hành vi của trình duyệt web, gửi yêu cầu HTTP đến trang web và phân tích mã HTML để trích xuất thông tin mong muốn.

Meta Platforms không tiết lộ sự tồn tại của MSAE trước đây. Điều khoản dịch vụ của YouTube nghiêm cấm việc sử dụng bot và scraper để thu thập dữ liệu cũng như dùng dữ liệu đó mà không có sự cho phép, điều mà OpenAI gần đây đã bị giám sát vì cố tình thực hiện.

Trang Insider đã cung cấp cho Meta Platforms những lời gợi ý mà họ sử dụng.

Người phát ngôn Meta Platforms không phủ nhận bất kỳ câu trả lời nào của Meta AI về dữ liệu đào tạo hoặc scraper của họ. Thay vào đó, người này cho rằng Meta AI có thể trả lời không chính xác.

“Giống như tất cả hệ thống AI tạo sinh, các mô hình có thể trả về kết quả đầu ra không chính xác hoặc không phù hợp. Chúng tôi sẽ tiếp tục cải thiện các tính năng này khi phát triển và có thêm nhiều người chia sẻ phản hồi của họ", người phát ngôn Meta Platforms nói.

Người phát ngôn cũng lưu ý: “Giống như những người khác trong ngành, chúng tôi sử dụng trình thu thập dữ liệu web” mà không nêu cụ thể MSAE được Meta AI được trích dẫn.

Người này cho biết thêm: “Các mô hình AI tạo sinh cần một lượng lớn dữ liệu để đào tạo hiệu quả, do đó cần sự kết hợp các nguồn được sử dụng để đào tạo, gồm cả thông tin có sẵn công khai trực tuyến và dữ liệu được chú thích”.

Meta AI ban đầu cho biết dữ liệu đào tạo nó gồm bộ dữ liệu của bên thứ ba với 3,7 triệu video YouTube được phiên âm. Meta AI khẳng định rằng nó "không sử dụng scraper để trực tiếp trích xuất dữ liệu từ video YouTube".

Khi trả lời thêm các câu hỏi từ Insider, Meta AI tiết lộ dữ liệu đào tạo nó gồm cả một bộ dữ liệu phiên âm khác lớn hơn, từ 6 triệu video YouTube, cũng do bên thứ ba biên soạn.

Chưa hết, Meta AI nói thêm rằng dữ liệu đào tạo nó gồm cả hai bộ phiên âm hoặc phụ đề YouTube bổ sung (một bộ với 1,5 triệu video và một bộ khác với 2,5 triệu video) cùng một bộ dữ liệu phiên âm từ 2.500 bài TED Talks được đăng trên YouTube.

TED Talks là những bài diễn thuyết ngắn, truyền cảm hứng được ghi lại tại các sự kiện của tổ chức phi lợi nhuận TED. Các diễn giả TED được mời đều là chuyên gia, người tiên phong trong lĩnh vực của mình và họ chia sẻ những ý tưởng độc đáo, sáng tạo.

Chatbot của Meta Platforms cho biết công ty “thực hiện các bước để tránh thu thập dữ liệu có bản quyền”.

Khi chúng ta sử dụng Meta AI, có vẻ như chatbot này đang quét web ở một mức độ nào đó. Kết quả cho một số truy vấn được trích dẫn từ các nguồn như NBC News, CNN và The Financial Times. Meta AI thường không nêu nguồn trong các phản hồi của mình, trừ khi được yêu cầu cụ thể làm như vậy.

Meta Platforms đang xem xét các thỏa thuận trả phí mới với các nhà xuất bản truyền thông để có quyền truy cập vào nhiều dữ liệu đào tạo AI hơn. Điều này có thể cải thiện kết quả của Meta AI.

tro-ly-ao-meta-ai-noi-duoc-dao-tao-tren-hang-trieu-video-youtube-meta-len-tieng.jpg — Meta AI trả lời trang Insider rằng nó được đào tạo dựa trên hàng triệu video YouTube - Ảnh: CNN

Ngoài ra, Meta AI cũng cho biết tôn trọng robots.txt, một dòng mã mà chủ sở hữu trang web có thể sử dụng để ngăn chặn nội dung bị thu thập bởi các bot cho việc đào tạo AI.

Meta Platforms đã phát triển chatbot với mô hình ngôn ngữ lớn Llama. Dù Llama 3 trình làng vào tháng 4 nhưng vào khoảng thời gian Meta AI được nâng cấp, Meta Platforms vẫn chưa xuất bản tài liệu nghiên cứu đi kèm mô hình ngôn ngữ lớn mới hoặc tiết lộ dữ liệu đào tạo được sử dụng. Trong một bài đăng trên blog, Meta Platforms cho biết bộ dữ liệu khổng lồ gồm 15.000 tỉ token (đơn vị ngôn ngữ) mà Llama 3 được đào tạo đến từ “các nguồn có sẵn công khai”.

Các scraper như GPTBot của OpenAI, GoogleBot của Google, CCBot của Common Crawl có thể trích xuất hiệu quả bất kỳ và tất cả nội dung có sẵn trên web. Nội dung này được lưu trữ trong các tập dữ liệu khổng lồ cung cấp cho mô hình ngôn ngữ lớn và thường được công cụ AI sinh tạo như ChatGPT sử dụng lại.

Trước đây, cộng đồng AI cho rằng OpenAI sử dụng số lượng lớn video YouTube để đào tạo các mô hình AI, gồm cả trình chuyển văn bản thành video Sora.

Trong bài phát biểu công khai đầu tiên về chủ đề trên hồi tháng 4, Giám đốc điều hành YouTube - Neal Mohan nói ông không biết liệu OpenAI có thực sự sử dụng video YouTube để tinh chỉnh Sora hay không. Nếu có, đó sẽ là hành vi vi phạm rõ ràng các điều khoản sử dụng của YouTube, Neal Mohan nói.

Neal Mohan phát biểu trên chương trình Bloomberg Originals: “Theo góc nhìn của người sáng tạo, khi tải tác phẩm lên nền tảng của chúng tôi, họ có những kỳ vọng nhất định. Một trong những kỳ vọng đó là các điều khoản dịch vụ sẽ được tuân thủ. Điều khoản không cho phép tải xuống các bản sao chép hoặc đoạn video, vì đó là hành vi vi phạm rõ ràng các điều khoản dịch vụ của YouTube. Đây là những quy tắc cơ bản với nội dung trên nền tảng của chúng tôi”.

tro-ly-ao-meta-ai-noi-duoc-dao-tao-tren-hang-trieu-video-youtube-meta-len-tieng1.jpg — Neal Mohan nói nếu OpenAI đào tạo Sora bằng video trên YouTube thì sẽ vi phạm các quy tắc - Ảnh: Bloomberg

Đã có nhiều cuộc tranh luận công khai về việc OpenAI sử dụng dữ liệu nào để đào tạo các mô hình AI làm nền tảng cho các sản phẩm tạo nội dung phổ biến như ChatGPT, DALL-E và Sora.

Sora và các ứng dụng AI tạo sinh khác hoạt động bằng cách thu thập tất cả loại nội dung từ khắp nơi trên web và sử dụng dữ liệu đó làm nền tảng để tạo ra nội dung mới, như video, ảnh, văn bản tường thuật...

Khi OpenAI, Google và các công ty khác chạy đua để phát triển AI mạnh mẽ hơn, họ đang tìm cách tìm nguồn càng nhiều nội dung càng tốt để đào tạo các mô hình AI của mình nhằm đạt được kết quả chất lượng tốt hơn. Google và YouTube là hai đơn vị của Alphabet.

Ký hợp đồng với các hãng truyền thông để tránh bị kiện bản quyền

Nhiều vụ kiện đang diễn ra liên quan đến nội dung có bản quyền bị các hãng công nghệ lớn nhất thế giới tự do sử dụng. Văn phòng Bản quyền Mỹ dự kiến sẽ phát hành hướng dẫn mới về cách sử dụng dữ liệu được chấp nhận cho các công ty AI vào cuối năm nay.

Cuối tháng 2, New York Times, một trong những tờ báo uy tín nhất nước Mỹ, đã đâm đơn kiện OpenAI và Microsoft (nhà đầu tư lớn nhất của OpenAI).

New York Times cáo buộc hai công ty này đã sử dụng mô hình AI mạnh mẽ để tự ý thu thập hàng ngàn bài viết do tờ báo này xuất bản để huấn luyện các sản phẩm AI.

Đơn kiện của New York Times nêu: "Bằng những chatbot AI của mình, hai công ty này đã tìm cách lợi dụng sự đầu tư khổng lồ của New York Times vào các sản phẩm báo chí. Qua đó, họ hướng đến việc tạo nên các sản phẩm thay thế New York Times dù chưa có sự cho phép hay trả phí".

Nhiều tháng qua, vấn đề bản quyền đã trở thành đề tài tranh cãi kịch liệt trong lĩnh vực AI tạo sinh.

Để hoàn thiện sản phẩm AI của mình, các công ty phải cung cấp dữ liệu đầu vào cho máy tính và cho phép nó tìm hiểu, điều chỉnh để cải thiện hiệu suất. Quá trình này gọi là huấn luyện AI.

Dữ liệu đầu vào thường là các thông tin được đăng tải trên các báo, sản phẩm âm nhạc, hội họa... Hầu hết các bên phát triển AI tạo sinh đều thu thập những dữ liệu này từ internet mà không xin phép tác giả.

Ngày càng nhiều đơn vị xuất bản, nhạc sĩ, họa sĩ ở Mỹ tìm đến các luật sư để yêu cầu các công ty AI trên phải trả tiền cho việc làm đó.

Hồ sơ tòa án của New York Times khẳng định: "Nếu tờ báo và những tổ chức thông tấn khác không thể sản xuất và bảo vệ sản phẩm báo chí độc lập của mình, sẽ có sự thiếu hụt thông tin mà không máy tính hay AI nào có thể lấp đầy. Càng ít sản phẩm báo chí được viết ra, cái giá xã hội phải trả sẽ càng lớn".

Nguyện vọng của New York Times là OpenAI và Microsoft phải bồi thường, đồng thời cả hai công ty phải lập tức ngừng việc dùng nội dung của báo này để huấn luyện AI, cũng như hủy những dữ liệu tin bài trên New York Times từng thu thập.

Dù không yêu cầu cụ thể số tiền bồi thường, New York Times khẳng định hành vi vi phạm của hai công ty này có thể dẫn đến "việc trả hàng tỉ USD theo luật định và thiệt hại thực tế khác".

Khi nhận thông tin về vụ kiện trên, đại diện của OpenAI bày tỏ "ngạc nhiên và thất vọng". Công ty khởi nghiệp AI này khẳng định vụ kiện vẫn được khởi động dù hai bên đã và đang trao đổi về các vấn đề bản quyền. Đại diện của OpenAI mô tả quá trình đàm phán này "đang tiến về phía trước với tính xây dựng cao".

Người phát ngôn của OpenAI tuyên bố: "Chúng tôi hy vọng sẽ tìm được cách để cả hai có thể hợp tác cùng có lợi, giống những gì chúng tôi đang làm với các đơn vị xuất bản khác".

Hôm 22.5, OpenAI ký thỏa thuận với News Corp, công ty chủ quản của tờ The Wall Street Journal. Thỏa thuận này cho phép OpenAI sử dụng nội dung từ hơn 12 ấn phẩm của News Corp trong các sản phẩm của họ, chẳng hạn ChatGPT.

Theo đó, các dịch vụ của OpenAI sẽ có thể hiển thị tin tức từ The Wall Street Journal, Barron's, MarketWatch và các ấn phẩm khác thuộc News Corp.

News Corp là tập đoàn truyền thông đa quốc gia khổng lồ có trụ sở tại Mỹ, sở hữu danh mục đầu tư khổng lồ gồm các tờ báo, tạp chí, trang web, dịch vụ phát thanh truyền hình, dịch vụ bất động sản kỹ thuật số…

Theo hãng tin Bloomberg, thỏa thuận này có thể trị giá hơn 250 triệu USD trong 5 năm.

Động thái trên diễn ra sau khi OpenAI đã ký kết thỏa thuận với các công ty truyền thông nổi tiếng ở Mỹ và châu Âu, gồm cả Financial Times, Dotdash Meredith và nền tảng truyền thông xã hội Reddit, để hiển thị và được cấp phép nội dung.