Thế giới số

Meta khao khát các nguồn dữ liệu để đào tạo AI đến mức chấp nhận đối mặt với vụ kiện bản quyền

Sơn Vân • 07/04/2024 11:59

Meta Platforms và những gã khổng lồ công nghệ khác đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo mô hình trí tuệ nhân tạo (AI).

Tại Meta Platforms, vấn đề này nghiêm trọng đến mức các lãnh đạo đã họp gần như hàng ngày vào tháng 3 và tháng 4.2023 để đưa ra kế hoạch, tờ The New York Times đưa tin hôm 6.4.

Khi hệ thống AI trở nên mạnh mẽ hơn, các hãng công nghệ buộc phải tìm kiếm dữ liệu một cách tích cực hơn và có thể khiến họ có nguy cơ vi phạm bản quyền.

Theo The New York Times, trong các cuộc họp của Meta Platforms, một số người tham dự đã đưa ra ý tưởng mua nhà xuất bản Simon & Schuster (được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỉ USD vào tháng 8.2023). Những người khác đề nghị trả 10 USD/cuốn sách để có được toàn bộ bản quyền với các tựa sách mới.

Vào thời điểm diễn ra các cuộc họp vào tháng 3 và tháng 4.2023, Meta Platforms đã tóm tắt nhiều sách, bài tiểu luận và các tác phẩm trực tuyến khác. Công ty mẹ Facebook đã thuê các nhà thầu ở châu Phi để tập hợp bản tóm tắt các tựa sách hư cấu và phi hư cấu, một số trong đó thông tin có bản quyền.

Những người tham dự đã thảo luận liệu Meta Platforms có thể tiếp tục thu thập dữ liệu từ các nguồn có khả năng được bảo vệ bản quyền mà không cần mất thời gian và tiền bạc để mua thỏa thuận cấp phép hay không.

Khi một luật sư chỉ ra những lo ngại về "đạo đức" của việc lấy tài sản trí tuệ, họ đã im lặng, theo The New York Times. Cuối cùng, các nhà quản lý Meta Platforms đã quyết định dựa vào tiền lệ được thiết lập trong vụ Authors Guild (Hiệp hội Tác giả Mỹ) kiện Google. Đó là vụ kiện năm 2015 được đệ trình lên Tòa án Tối cao Mỹ. Thế nhưng, Tòa án Tối cao Mỹ đã từ chối thụ lý vụ án, giữ nguyên phán quyết của tòa án cấp dưới. Tòa án đó cho biết Google có thể quét và số hóa sách cho dịch vụ Google Books theo nguyên tắc sử dụng hợp lý. Luật sư của Meta Platforms cho biết công ty có thể đào tạo các hệ thống AI riêng theo các nguyên tắc tương tự, theo The New York Times đưa tin.

meta-khao-khat-cac-nguon-du-lieu-de-dao-tao-ai-den-muc-chap-nhan-doi-mat-voi-vu-kien-ban-quyen.jpg — Meta Platforms đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo mô hình AI - Ảnh: Getty Images

Khi chạy đua để phát triển AI mạnh mẽ hơn, Meta Platforms, OpenAI, Google và các hãng công nghệ lớn khác đang tìm cách tìm nguồn càng nhiều nội dung càng tốt để đào tạo các mô hình AI của mình nhằm đạt được kết quả chất lượng tốt hơn.

Một số người nghi ngờ OpenAI sử dụng video trên YouTube thuộc Alphabet để đào tạo Sora, mô hình chuyển văn bản thành video chân thực.

Trong bài phát biểu công khai đầu tiên về chủ đề trên, Neal Mohan (Giám đốc điều hành YouTube) cho biết ông không biết liệu OpenAI có thực sự sử dụng video YouTube để tinh chỉnh Sora hay không. Nếu có thì đó sẽ là hành vi “vi phạm rõ ràng” các điều khoản sử dụng của YouTube, Neal Mohan nói.

ChatGPT, DALL-E và Sora của OpenAI hoạt động bằng cách thu thập tất cả loại nội dung từ khắp nơi trên web và sử dụng dữ liệu đó làm nền tảng để tạo ra nội dung mới, như video, ảnh, văn bản tường thuật...

Cộng đồng AI cho rằng OpenAI sử dụng số lượng lớn video YouTube để đào tạo các mô hình AI, gồm cả sản phẩm mới của họ là Sora. Nó gần như là một bí mật đã được công khai. Điều bí ẩn là làm thế nào OpenAI truy cập đủ nội dung YouTube để thực hiện công việc này.

YouTube cấm việc thu thập video của mình bằng bot và các phương pháp tự động khác, đồng thời cấm tải xuống vì mục đích thương mại. YouTube cũng sẽ hạn chế các nỗ lực tải xuống video trên nền tảng của mình với số lượng lớn.

OpenAI cần lượng lớn văn bản, hình ảnh và video để đào tạo các mô hình AI của mình. Điều này có nghĩa là OpenAI, công ty khởi nghiệp Mỹ được Microsoft đầu tư hàng tỉ USD, nếu muốn vượt qua các giới hạn thì phải tải xuống khối lượng lớn video YouTube hoặc truy cập dữ liệu này theo cách nào đó.

Video YouTube được cung cấp miễn phí trực tuyến, nên việc tải xuống một lượng nhỏ nội dung này cho mục đích nghiên cứu có vẻ vô hại. Thế nhưng, khai thác hàng triệu video để xây dựng các mô hình AI mạnh mẽ có thể là việc hoàn toàn khác.

Trang Insider đã hỏi OpenAI liệu họ có tải xuống video YouTube trên quy mô lớn hay không và liệu công ty này có sử dụng nội dung này làm dữ liệu để đào tạo mô hình AI hay không. Insider cũng hỏi OpenAI về những hạn chế của YouTube về việc tải xuống video với số lượng lớn.

Người phát ngôn của OpenAI cho biết: “Chương trình đào tạo của Sora bao gồm tài liệu từ các nguồn được cấp phép cũng như nội dung có sẵn công khai trên internet”. Người này từ chối bình luận về các câu hỏi cụ thể từ Insider.

Mira Murati, Giám đốc Công nghệ OpenAI, cho biết trong một cuộc phỏng vấn với tờ Wall Street Journal vào tháng trước rằng bà không chắc liệu Sora có được đào tạo bằng video do người dùng tạo từ YouTube, Facebook và Instagram hay không.

Wall Street Journal gần đây đưa tin OpenAI đã thảo luận về việc đào tạo mô hình ngôn ngữ lớn thế hệ tiếp theo, GPT-5, dựa trên các bản trích dẫn từ video công khai trên YouTube.

Cơn sốt dữ liệu đào tạo AI

OpenAI, Google, Meta Platforms, Microsoft, Apple, Amazon ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ lớn cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

OpenAI, Google, Meta Platforms, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể. Thế nhưng, Microsoft và Google đã giới thiệu với Reuters về các quy tắc ứng xử của nhà cung cấp, gồm cả điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng sẽ "ngay lập tức hành động, gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện vi phạm ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.