OpenAI có thể bị kiện về bản quyền vì ChatGPT ghi nhớ nội dung hàng trăm cuốn sách

Nhịp đập công nghệ - Ngày đăng : 10:55, 03/05/2023

Các học giả tại Đại học California ở thành phố Berkeley (Mỹ) đã nghiên cứu sâu về ChatGPT cùng mô hình ngôn ngữ lớn GPT-4 của OpenAI và phát hiện chúng ghi nhớ nội dung hàng trăm cuốn sách có bản quyền.

Các học giả Kent Chang, Mackenzie Cramer, Sandeep Soni và David Bamman mô tả về khả năng ghi nhớ của ChatGPT/GPT-4 với các tài liệu có bản quyền trong bài viết Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4.

“Chúng tôi thấy rằng các mô hình OpenAI đã ghi nhớ một bộ sưu tập lớn các tài liệu có bản quyền và mức độ ghi nhớ này liên quan đến tần suất xuất hiện của các đoạn văn trong những cuốn sách đó”, các nhà nghiên cứu này giải thích.

Nhóm học giả đã xuất bản mã và dữ liệu của mình trên GitHub cũng như danh sách hơn 570 cuốn sách được xác định (có thể tìm thấy tại đây).

GPT-4 được phát hiện ghi nhớ các cuốn sách như Harry Potter, Nineteen Eighty-Four, The Lord of the Rings trilogy, The Hunger Games, Hitchhiker’s Guide to the Galaxy, Fahrenheit 451, A Game of Thrones, Dune…

Các học giả lưu ý rằng sách khoa học viễn tưởng và giả tưởng chiếm ưu thế trong danh sách này, điều mà họ cho là do sự phổ biến của những tựa sách đó trên web. Họ chỉ ra rằng việc ghi nhớ nội dung cuốn sách cụ thể có tác dụng truy vấn. Ví dụ, ChatGPT hay GPT-4 đưa ra dự đoán chính xác hơn khi trả lời các câu hỏi như "Đoạn văn này được xuất bản vào năm nào?" do đã ghi nhớ nội dung sách.

Một hậu quả của việc quen thuộc với khoa học viễn tưởng và giả tưởng là ChatGPT thể hiện ít kiến thức hơn về các tác phẩm ở các thể loại khác.

Các nhà nghiên cứu không tuyên bố rằng ChatGPT hoặc các mô hình mà chatbot AI này được xây dựng dựa trên đó chứa toàn bộ nội dung các cuốn sách được trích dẫn.

Các tác giả giải thích trong bài viết: "Dữ liệu đằng sau ChatGPT và GPT-4 về cơ bản là không thể biết được bên ngoài OpenAI. Tại bất kỳ thời điểm nào, chúng tôi không cố gắng truy cập dữ liệu huấn luyện thật sự đằng sau những mô hình này hoặc bất kỳ thành phần cốt lõi nào trong các hệ thống này. Chúng tôi chỉ sử dụng phương pháp suy diễn xác suất để đo lường mức độ quen thuộc của các mô hình AI với một tập hợp các sách nhất định. Tuy nhiên, chúng tôi không thể xác định chắc chắn liệu những đoạn văn được trích xuất từ các cuốn sách này có thật sự xuất hiện trong dữ liệu huấn luyện của các mô hình AI hay không”.

Để làm cho các câu hỏi như vậy có thể được trả lời, các học giả đề xuất sử dụng dữ liệu huấn luyện công khai để hành vi của các mô hình trở nên minh bạch hơn. Họ thực hiện dự án trên để hiểu những gì các mô hình này đã ghi nhớ, vì chúng có hành vi khác nhau khi phân tích các văn bản văn học từng đã được sử dụng để huấn luyện.

Các học giả tại Đại học California phát hiện ChatGPT và GPT-4 ghi nhớ nội dung hàng trăm cuốn sách có bản quyền - Ảnh: Internet

Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức chính của hãng Hugging Face, nói với trang The Register: “Quản lý dữ liệu vẫn rất chưa hoàn thiện trong học máy. 'Không nên sử dụng dữ liệu huấn luyện để kiểm tra mô hình’ là một câu châm ngôn phổ biến trong học máy. Thế nhưng, tôi hy vọng công việc này sẽ giúp thúc đẩy tiến bộ trong việc quản lý dữ liệu có trách nhiệm hơn trong lĩnh vực đó".

Các nhà khoa học máy tính Đại học California ít tập trung hơn vào ý nghĩa bản quyền của việc ghi nhớ văn bản, chú ý nhiều hơn vào việc không thể hiểu được cách mà các mô hình máy học này hoạt động (OpenAI không tiết lộ dữ liệu được sử dụng để đào tạo chúng) và điều đó ảnh hưởng như thế nào đến độ chính xác của phân tích văn bản.

Tuy nhiên, các vấn đề liên quan đến bản quyền có thể không thể tránh được, đặc biệt là nếu các ứng dụng dựa trên các mô hình này tạo ra các đoạn văn bản tương đối giống hoặc giống hệt các đoạn văn bản được bảo vệ bản quyền mà chúng đã học.

Tyler Ochoa, giáo sư khoa Luật tại Đại học Santa Clara ở bang California (Mỹ), cho rằng sẽ có các vụ kiện chống lại các nhà sản xuất mô hình ngôn ngữ lớn tạo ra văn bản, bao gồm OpenAI, Google và những hãng khác.

Ông nói các vấn đề bản quyền với việc tạo văn bản AI hoàn toàn giống các vấn đề về tạo hình ảnh AI.

Thứ nhất: Việc sao chép lượng lớn văn bản hoặc hình ảnh để đào tạo mô hình có hợp lý không? Ông nói câu trả lời cho điều đó có lẽ là có.

Thứ hai: Nếu mô hình tạo đầu ra quá giống với đầu vào, cái mà bài viết của các học giả gọi là "ghi nhớ", thì đó có phải là hành vi vi phạm bản quyền không? Ông nói câu trả lời gần như chắc chắn là có.

Thứ ba: Nếu đầu ra của trình tạo văn bản AI không phải là bản sao của văn bản hiện có thì nó có được bảo vệ bản quyền không? Theo luật hiện hành, Tyler Ochoa cho biết câu trả lời là không, bởi luật bản quyền Mỹ yêu cầu sự sáng tạo của con người, dù một số quốc gia sẽ không đồng ý và sẽ bảo vệ các tác phẩm do AI tạo ra.

Tuy nhiên, ông nói thêm rằng việc lựa chọn, sắp xếp và chỉnh sửa kết quả đầu ra của mô hình AI sẽ khiến việc bảo vệ bản quyền trở nên hợp lý hơn.

Ông nói: “Cho đến nay, chúng tôi đã chứng kiến các vụ kiện về vấn đề một và ba. Các vụ kiện cho đến nay đều liên quan đến các mô hình tạo hình ảnh AI, nhưng các vụ kiện chống lại các mô hình tạo văn bản AI là không thể tránh khỏi. Chúng tôi chưa thấy bất kỳ vụ kiện nào liên quan đến vấn đề thứ hai. Bài viết từ các nhà nghiên cứu Đại học California chứng minh rằng sự giống nhau như vậy là có thể. Theo tôi, khi điều đó xảy ra, sẽ có các vụ kiện và gần như chắc chắn sẽ cấu thành hành vi vi phạm bản quyền".

"Việc chủ sở hữu mô hình hay người dùng mô hình phải chịu trách nhiệm pháp lý hoặc cả hai đều chịu, tùy thuộc vào mức độ mà người dùng truy vấn hoặc khuyến khích mô hình đạt được kết quả", Tyler Ochoa nói thêm.

OpenAI không trả lời khi được đề nghị bình luận về vấn đề trên.

Sơn Vân