Diễn viên hài Sarah Silverman và hai tác giả kiện OpenAI, Meta vi phạm bản quyền

Diễn viên hài Sarah Silverman và hai tác giả đã đệ đơn kiện Meta Platforms và OpenAI vi phạm bản quyền với cáo buộc sử dụng nội dung của họ mà không được phép để đào tạo các mô hình ngôn ngữ trí tuệ nhân tạo (AI).

Các vụ kiện tập thể được Sarah Silverman, Richard Kadrey, Christopher Golden đệ trình tại tòa án liên bang San Francisco (Mỹ), cáo buộc công ty mẹ Facebook và nhà sản xuất ChatGPT đã sử dụng tài liệu có bản quyền để huấn luyện chatbot AI.

Meta Platforms và OpenAI (công ty khởi nghiệp được Microsoft đầu tư hàng tỉ USD) không trả lời ngay lập tức khi được đề nghị bình luận về chuyện này.

Các vụ kiện nhấn mạnh những rủi ro pháp lý mà nhà phát triển chatbot AI gặp phải khi sử dụng kho tài liệu có bản quyền để tạo ứng dụng mang lại phản hồi thực tế cho truy vấn của người dùng.

Sarah Silverman, Richard Kadrey, Christopher Golden cáo buộc Meta Platforms và OpenAI đã sử dụng sách của họ mà không được phép để phát triển mô hình ngôn ngữ lớn, công cụ mạnh mẽ để tự động hóa các tác vụ bằng cách tái tạo cuộc trò chuyện giống con người.

Trong vụ kiện chống lại Meta Platforms, các nguyên đơn cáo buộc rằng thông tin rò rỉ về hoạt động kinh doanh AI của công ty cho thấy tác phẩm của họ đã bị sử dụng trái phép.

Vụ kiện chống lại OpenAI cáo buộc rằng bản tóm tắt công việc của nguyên đơn do ChatGPT tạo ra cho thấy chatbot AI này đã được huấn luyện bằng nội dung có bản quyền của họ.

“Các bản tóm tắt có một số chi tiết sai nhưng vẫn cho thấy ChatGPT giữ lại kiến thức về các tác phẩm cụ thể trong tập dữ liệu được huấn luyện”, các nguyên đơn cho biết.

Các vụ kiện tìm kiếm những thiệt hại về số tiền chưa được xác định thay mặt cho một nhóm chủ sở hữu bản quyền trên toàn quốc có tác phẩm bị cáo buộc vi phạm.

sarah-silverman-va-hai-tac-gia-kien-openai-meta-vi-pham-ban-quyen.jpg — Diễn viên hài Sarah Silverman kiện Meta Platforms và OpenAI vi phạm bản quyền - Ảnh: Internet

Trước đó, hãng luật Clarkson (ở bang California, Mỹ) đã tiến hành vụ kiện tập thể chống lại OpenAI, cáo buộc công ty này vi phạm nghiêm trọng bản quyền và quyền riêng tư của vô số người khi sử dụng dữ liệu thu thập được từ internet để huấn luyện công nghệ của mình.

Theo vụ kiện dài 157 trang từ Clarkson, OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn.

Vụ kiện tìm cách kiểm tra lý thuyết pháp lý mới rằng OpenAI đã vi phạm quyền của hàng triệu người dùng internet khi sử dụng các bình luận trên mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ... Clarkson trước đây đã thực hiện một số vụ kiện tập thể quy mô lớn về các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật.

Clarkson muốn đại diện cho “những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Clarkson đệ trình vụ kiện lên tòa án liên bang ở quận phía bắc California hôm 28.6.

sarah-silverman-va-hai-tac-gia-kien-openai-meta-vi-pham-ban-quyen11.jpg — Các học giả tại Đại học California phát hiện ChatGPT và GPT-4 ghi nhớ nội dung hàng trăm cuốn sách có bản quyền - Ảnh: Internet

Đầu tháng 5, ba học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman tại Đại học California ở thành phố Berkeley (Mỹ) phát hiện ChatGPT cùng mô hình ngôn ngữ lớn GPT-4 của OpenAI ghi nhớ nội dung hàng trăm cuốn sách có bản quyền.

Các học giả này mô tả về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4.

“Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó”, các nhà nghiên cứu này giải thích.

Nhóm học giả đã xuất bản mã và dữ liệu của mình trên GitHub cũng như danh sách hơn 570 cuốn sách được xác định (có thể tìm thấy tại đây).

GPT-4 được phát hiện ghi nhớ các cuốn sách như Harry Potter, Nineteen Eighty-Four, The Lord of the Rings trilogy, The Hunger Games, Hitchhiker’s Guide to the Galaxy, Fahrenheit 451, A Game of Thrones, Dune…

Các học giả lưu ý rằng sách khoa học viễn tưởng và giả tưởng chiếm ưu thế trong danh sách này, điều mà họ cho là do sự phổ biến của những tựa sách đó trên web. Họ chỉ ra rằng việc ghi nhớ nội dung cuốn sách cụ thể có tác dụng truy vấn. Ví dụ, ChatGPT hay GPT-4 đưa ra dự đoán chính xác hơn khi trả lời các câu hỏi như "Đoạn văn này được xuất bản vào năm nào?" do đã ghi nhớ nội dung sách.

Một hậu quả của việc quen thuộc với khoa học viễn tưởng và giả tưởng là ChatGPT thể hiện ít kiến thức hơn về các tác phẩm ở các thể loại khác.

Các nhà nghiên cứu không tuyên bố rằng ChatGPT hoặc các mô hình mà chatbot AI này được xây dựng dựa trên đó chứa toàn bộ nội dung các cuốn sách được trích dẫn.

Các tác giả giải thích trong bài viết: "Dữ liệu đằng sau ChatGPT và GPT-4 về cơ bản là không thể biết được bên ngoài OpenAI. Tại bất kỳ thời điểm nào, chúng tôi không cố gắng truy cập dữ liệu huấn luyện thật sự đằng sau những mô hình này hoặc bất kỳ thành phần cốt lõi nào trong các hệ thống này. Chúng tôi chỉ sử dụng phương pháp suy diễn xác suất để đo lường mức độ quen thuộc của các mô hình AI với một tập hợp các sách nhất định. Tuy nhiên, chúng tôi không thể xác định chắc chắn liệu những đoạn văn được trích xuất từ các cuốn sách này có thật sự xuất hiện trong dữ liệu huấn luyện của các mô hình AI hay không”.

Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức chính của hãng Hugging Face, nói với trang The Register: “Quản lý dữ liệu vẫn rất chưa hoàn thiện trong học máy. 'Không nên sử dụng dữ liệu huấn luyện để kiểm tra mô hình’ là một câu châm ngôn phổ biến trong học máy. Thế nhưng, tôi hy vọng công việc này sẽ giúp thúc đẩy tiến bộ trong việc quản lý dữ liệu có trách nhiệm hơn trong lĩnh vực đó".

Các nhà khoa học máy tính Đại học California ít tập trung hơn vào ý nghĩa bản quyền của việc ghi nhớ văn bản, chú ý nhiều hơn vào việc không thể hiểu được cách mà các mô hình máy học này hoạt động (OpenAI không tiết lộ dữ liệu được sử dụng để đào tạo chúng) và điều đó ảnh hưởng như thế nào đến độ chính xác của phân tích văn bản.

Tuy nhiên, các vấn đề liên quan đến bản quyền khó tránh được, đặc biệt là nếu các ứng dụng dựa trên các mô hình AI này tạo ra các đoạn văn bản tương đối giống hoặc giống hệt các đoạn văn bản được bảo vệ bản quyền mà chúng đã học.

Tyler Ochoa, giáo sư khoa Luật tại Đại học Santa Clara ở bang California (Mỹ), cho rằng sẽ có các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, bao gồm OpenAI, Google và những hãng khác. Tyler Ochoa nói các vấn đề bản quyền với việc tạo văn bản AI hoàn toàn giống các vấn đề về tạo hình ảnh AI.

Thứ nhất: Việc sao chép lượng lớn văn bản hoặc hình ảnh để đào tạo mô hình có hợp lý không? Ông nói câu trả lời cho điều đó có lẽ là “có”.

Thứ hai: Nếu mô hình tạo đầu ra quá giống với đầu vào, cái mà bài viết của các học giả gọi là "ghi nhớ", thì đó có phải là hành vi vi phạm bản quyền không? Ông nói câu trả lời gần như chắc chắn là “có”.

Thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có thì nó có được bảo vệ bản quyền không? Theo luật hiện hành, Tyler Ochoa cho biết câu trả lời là “không”, bởi luật bản quyền Mỹ yêu cầu sự sáng tạo của con người, dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra.

Tuy nhiên, Tyler Ochoa nói thêm rằng việc lựa chọn, sắp xếp và chỉnh sửa kết quả đầu ra của mô hình AI sẽ khiến việc bảo vệ bản quyền trở nên hợp lý hơn.