Một nhóm gồm 11 tác giả sách phi hư cấu đã tham gia vụ kiện tại tòa án liên bang ở quận Manhattan (thành phố New York, Mỹ) cáo buộc OpenAI và Microsoft lạm dụng những cuốn sách mà họ viết để đào tạo các mô hình ngôn ngữ lớn đằng sau chatbot ChatGPT và phần mềm dựa trên trí tuệ nhân tạo (AI) khác.
Thế giới số

Các tác giả đoạt giải Pulitzer tham gia vụ kiện bản quyền chống lại OpenAI, Microsoft

Sơn Vân 21/12/2023 07:35

Một nhóm gồm 11 tác giả sách phi hư cấu đã tham gia vụ kiện tại tòa án liên bang ở quận Manhattan (thành phố New York, Mỹ) cáo buộc OpenAI và Microsoft lạm dụng những cuốn sách mà họ viết để đào tạo các mô hình ngôn ngữ lớn đằng sau chatbot ChatGPT và phần mềm dựa trên trí tuệ nhân tạo (AI) khác.

Các nhà văn, bao gồm cả người đoạt giải Pulitzer như Taylor Branch, Stacy Schiff và Kai Bird (những người đồng tác giả cuốn tiểu sử về J. Robert Oppenheimer có tên American Prometheus, đã được chuyển thể thành bộ phim Oppenheimer nổi tiếng trong năm nay), nói trước tòa hôm 20.12 rằng các công ty đã vi phạm bản quyền bằng cách sử dụng tác phẩm của họ để đào tạo các mô hình ngôn ngữ lớn GPT của OpenAI.

Pulitzer là một giải thưởng danh giá được trao hàng năm cho các thành tựu xuất sắc trong lĩnh vực báo chí, văn học và âm nhạc. Pulitzer được thành lập theo di chúc của nhà báo Joseph Pulitzer, đã trở thành một trong những giải thưởng nổi tiếng và được coi là một phần quan trọng của văn hóa văn học và báo chí ở Mỹ. Các tác phẩm được trao giải Pulitzer thường được đánh giá cao về nghệ thuật và ảnh hưởng sâu rộng đến xã hội.

Đại diện OpenAI và Microsoft đã không trả lời ngay lập tức khi Reuters đề nghị bình luận.

Luật sư Rohit Nath của các nhà văn cho biết hôm 20.12: “Các bị cáo đang kiếm được hàng tỉ USD từ việc sử dụng trái phép sách phi hư cấu và tác giả của những cuốn sách này xứng đáng được bồi thường cũng như đối xử công bằng vì hành vi đó”.

Julian Sancton, nhà văn và biên tập viên của trang Hollywood Reporter, lần đầu tiên đệ đơn kiện tập thể vào tháng trước. Sự việc này là một trong số vụ được các nhóm chủ sở hữu bản quyền gồm các tác giả John Grisham, George R.R. Martin và Jonathan Franzen đưa ra chống lại OpenAI và các công ty công nghệ khác về cáo buộc lạm dụng tác phẩm của họ trong đào tạo AI.

Các công ty đã phủ nhận các cáo buộc.

Đơn kiện của Julian Sancton là vụ kiện mà tác giả đầu tiên chống lại OpenAI và cũng nêu tên Microsoft là bị đơn. Gã khổng lồ công nghệ đã đầu tư hàng tỉ USD cho OpenAI và tích hợp công nghệ của công ty khởi nghiệp AI này vào các sản phẩm của mình.

Hồ sơ kiện được điều chỉnh hôm 18.12 nói rằng OpenAI đã "quét" tác phẩm của các tác giả cùng với một lượng lớn các tài liệu có bản quyền khác từ internet mà không có sự cho phép để huấn luyện mô hình GPT cách phản ứng với truy vấn văn bản từ con người.

Vụ kiện cũng cho biết Microsoft đã "tham gia sâu" vào việc đào tạo và phát triển các mô hình nên cũng phải chịu trách nhiệm về hành vi vi phạm bản quyền.

Nhóm tác giả đã yêu cầu tòa án đưa ra một số tiền bồi thường thiệt hại chưa xác định và ra lệnh cho các công ty ngừng vi phạm bản quyền của họ.

cac-tac-gia-doat-giai-pulitzer-tham-gia-vu-kien-ban-quyen-voi-openai-microsoft.jpg
Một nhóm gồm 11 tác giả sách phi hư cấu cáo buộc OpenAI và Microsoft lạm dụng những cuốn sách mà họ viết để đào tạo các mô hình ngôn ngữ lớn và phần mềm dựa trên AI khác - Ảnh: Internet

Thời gian qua, OpenAI đã dính vào một số vụ kiện bản quyền.

Hồi tháng 7, diễn viên hài Sarah Silverman và hai tác giả Richard Kadrey, Christopher Golden đã đệ đơn kiện OpenAI, Meta Platforms vi phạm bản quyền với cáo buộc sử dụng nội dung của họ mà không được phép để đào tạo các mô hình ngôn ngữ lớn, công cụ mạnh mẽ để tự động hóa các tác vụ bằng cách tái tạo cuộc trò chuyện giống con người.

Các vụ kiện tập thể được Sarah Silverman, Richard Kadrey, Christopher Golden đệ trình tại tòa án liên bang San Francisco (Mỹ), cáo buộc công ty mẹ Facebook và nhà sản xuất ChatGPT đã sử dụng tài liệu có bản quyền để huấn luyện chatbot AI.

Các vụ kiện nhấn mạnh những rủi ro pháp lý mà nhà phát triển chatbot AI gặp phải khi sử dụng kho tài liệu có bản quyền để tạo ứng dụng mang lại phản hồi thực tế cho truy vấn của người dùng.

Trong vụ kiện chống lại Meta Platforms, ba nguyên đơn cáo buộc rằng thông tin rò rỉ về hoạt động kinh doanh AI của công ty cho thấy tác phẩm của họ đã bị sử dụng trái phép.

Vụ kiện chống lại OpenAI cáo buộc rằng bản tóm tắt tác phẩm của nguyên đơn do ChatGPT tạo ra cho thấy chatbot AI này đã được huấn luyện bằng nội dung có bản quyền của họ.

“Các bản tóm tắt có một số chi tiết sai nhưng vẫn cho thấy ChatGPT giữ lại kiến thức về các tác phẩm cụ thể trong tập dữ liệu được huấn luyện”, các nguyên đơn cho biết.

Các vụ kiện tìm kiếm những thiệt hại về số tiền chưa được xác định thay mặt cho một nhóm chủ sở hữu bản quyền trên toàn quốc có tác phẩm bị cáo buộc vi phạm.

Trước đó, vào cuối tháng 6, hãng luật Clarkson (ở bang California, Mỹ) đã tiến hành vụ kiện tập thể chống lại OpenAI, cáo buộc công ty này vi phạm nghiêm trọng bản quyền và quyền riêng tư của vô số người khi sử dụng dữ liệu thu thập được từ internet để huấn luyện công nghệ của mình.

Theo vụ kiện dài 157 trang từ Clarkson, OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn.

Vụ kiện tìm cách kiểm tra lý thuyết pháp lý mới rằng OpenAI đã vi phạm quyền của hàng triệu người dùng internet khi sử dụng các bình luận trên mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ... Clarkson trước đây đã thực hiện một số vụ kiện tập thể quy mô lớn về các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật.

Clarkson muốn đại diện cho “những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Clarkson đệ trình vụ kiện lên tòa án liên bang ở quận phía bắc California hôm 28.6.

Đầu tháng 5, ba học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman tại Đại học California ở thành phố Berkeley (Mỹ) phát hiện ChatGPT cùng mô hình ngôn ngữ lớn GPT-4 của OpenAI ghi nhớ nội dung hàng trăm cuốn sách có bản quyền.

Các học giả này mô tả về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4.

“Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó”, các nhà nghiên cứu này giải thích.

Nhóm học giả đã xuất bản mã và dữ liệu của mình trên GitHub cũng như danh sách hơn 570 cuốn sách được xác định (có thể tìm thấy tại đây).

GPT-4 được phát hiện ghi nhớ các cuốn sách như Harry Potter, Nineteen Eighty-Four, The Lord of the Rings trilogy, The Hunger Games, Hitchhiker’s Guide to the Galaxy, Fahrenheit 451, A Game of Thrones, Dune…

Các học giả lưu ý rằng sách khoa học viễn tưởng và giả tưởng chiếm ưu thế trong danh sách này, điều mà họ cho là do sự phổ biến của những tựa sách đó trên web. Họ chỉ ra rằng việc ghi nhớ nội dung cuốn sách cụ thể có tác dụng truy vấn. Ví dụ, ChatGPT hay GPT-4 đưa ra dự đoán chính xác hơn khi trả lời các câu hỏi như "Đoạn văn này được xuất bản vào năm nào?" do đã ghi nhớ nội dung sách.

Một hậu quả của việc quen thuộc với khoa học viễn tưởng và giả tưởng là ChatGPT thể hiện ít kiến thức hơn về các tác phẩm ở các thể loại khác.

Các nhà nghiên cứu không tuyên bố rằng ChatGPT hoặc các mô hình mà chatbot AI này được xây dựng dựa trên đó chứa toàn bộ nội dung các cuốn sách được trích dẫn.

Các tác giả giải thích trong bài viết: "Dữ liệu đằng sau ChatGPT và GPT-4 về cơ bản là không thể biết được bên ngoài OpenAI. Tại bất kỳ thời điểm nào, chúng tôi không cố gắng truy cập dữ liệu huấn luyện thật sự đằng sau những mô hình này hoặc bất kỳ thành phần cốt lõi nào trong các hệ thống này. Chúng tôi chỉ sử dụng phương pháp suy diễn xác suất để đo lường mức độ quen thuộc của các mô hình AI với một tập hợp các sách nhất định. Tuy nhiên, chúng tôi không thể xác định chắc chắn liệu những đoạn văn được trích xuất từ các cuốn sách này có thật sự xuất hiện trong dữ liệu huấn luyện của các mô hình AI hay không”.

Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức chính của hãng Hugging Face, nói với trang The Register: “Quản lý dữ liệu vẫn rất chưa hoàn thiện trong học máy. 'Không nên sử dụng dữ liệu huấn luyện để kiểm tra mô hình’ là một câu châm ngôn phổ biến trong học máy. Thế nhưng, tôi hy vọng công việc này sẽ giúp thúc đẩy tiến bộ trong việc quản lý dữ liệu có trách nhiệm hơn trong lĩnh vực đó".

Các nhà khoa học máy tính Đại học California ít tập trung hơn vào ý nghĩa bản quyền của việc ghi nhớ văn bản, chú ý nhiều hơn vào việc không thể hiểu được cách mà các mô hình máy học này hoạt động (OpenAI không tiết lộ dữ liệu được sử dụng để đào tạo chúng) và điều đó ảnh hưởng như thế nào đến độ chính xác của phân tích văn bản.

Tuy nhiên, các vấn đề liên quan đến bản quyền khó tránh được, đặc biệt là nếu các ứng dụng dựa trên các mô hình AI này tạo ra các đoạn văn bản tương đối giống hoặc giống hệt các đoạn văn bản được bảo vệ bản quyền mà chúng đã học.

Tyler Ochoa, giáo sư khoa Luật tại Đại học Santa Clara ở bang California (Mỹ), cho rằng sẽ có các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, bao gồm OpenAI, Google và những hãng khác. Tyler Ochoa nói các vấn đề bản quyền với việc tạo văn bản AI hoàn toàn giống các vấn đề về tạo hình ảnh AI.

Thứ nhất: Việc sao chép lượng lớn văn bản hoặc hình ảnh để đào tạo mô hình có hợp lý không? Ông nói câu trả lời cho điều đó có lẽ là “có”.

Thứ hai: Nếu mô hình tạo đầu ra quá giống với đầu vào, cái mà bài viết của các học giả gọi là "ghi nhớ", thì đó có phải là hành vi vi phạm bản quyền không? Ông nói câu trả lời gần như chắc chắn là “có”.

Thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có thì nó có được bảo vệ bản quyền không? Theo luật hiện hành, Tyler Ochoa cho biết câu trả lời là “không”, bởi luật bản quyền Mỹ yêu cầu sự sáng tạo của con người, dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra.

Tuy nhiên, Tyler Ochoa nói thêm rằng việc lựa chọn, sắp xếp và chỉnh sửa kết quả đầu ra của mô hình AI sẽ khiến việc bảo vệ bản quyền trở nên hợp lý hơn.

Bài liên quan
Ilya Sutskever trở nên vô hình tại OpenAI, tương lai không chắc chắn sau khi biểu quyết sa thải Sam Altman
Dù từng có đóng góp to lớn, Ilya Sutskever, nhà đồng sáng lập và Giám đốc khoa học OpenAI, có thể không được mọi người tha thứ vì hành vi của ông trong vụ sa thải Sam Altman.

(0) Bình luận
Nổi bật Một thế giới
Phân công ông Trần Thanh Mẫn điều hành hoạt động của Quốc hội
13 giờ trước Theo dòng thời sự
Ông Trần Thanh Mẫn, Phó chủ tịch thường trực Quốc hội được phân công điều hành hoạt động của Ủy ban Thường vụ Quốc hội và Quốc hội thay ông Vương Đình Huệ vừa miễn nhiệm.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Các tác giả đoạt giải Pulitzer tham gia vụ kiện bản quyền chống lại OpenAI, Microsoft