OpenAI chỉ còn hơn một tuần để tuân thủ luật bảo vệ dữ liệu của Liên minh châu Âu (EU) sau lệnh cấm tạm thời ở Ý và hàng loạt cuộc điều tra từ các quốc gia khác. Nếu không thành công, OpenAI có thể bị phạt nặng, buộc phải xóa dữ liệu hoặc thậm chí bị cấm.
Thế nhưng, các chuyên gia nói với trang MIT Technology Review rằng OpenAI gần như không thể tuân thủ các quy tắc này, do dữ liệu được sử dụng để huấn luyện các mô hình AI thu thập từ nội dung trên internet.
Trong quá trình phát triển AI, mô hình phổ biến nhất là càng nhiều dữ liệu huấn luyện càng tốt. Mô hình GPT-2 của OpenAI có một bộ dữ liệu bao gồm 40 GB văn bản. GPT-3, mô hình ngôn ngữ lớn để ChatGPT hoạt động, được huấn luyện trên 570 GB dữ liệu. OpenAI đã không chia sẻ kích thước bộ dữ liệu cho mô hình ngôn ngữ lớn mới nhất là GPT-4.
Tuy nhiên, sự khát khao của OpenAI về các mô hình lớn hơn khiến công ty trả giá. Vài tuần qua, một số cơ quan bảo vệ dữ liệu phương Tây đã bắt đầu điều tra cách OpenAI thu thập và xử lý dữ liệu để cung cấp sức mạnh cho ChatGPT. Họ tin rằng OpenAI thu thập dữ liệu cá nhân của nhiều người, chẳng hạn tên hoặc địa chỉ email, rồi sử dụng mà không có sự đồng ý của họ.
Ý đã tạm thời cấm ChatGPT như một biện pháp phòng ngừa và các cơ quan quản lý dữ liệu của Pháp, Đức, Iceland, Canada cũng đang điều tra cách OpenAI thu thập và sử dụng dữ liệu. Ủy ban bảo vệ dữ liệu châu Âu cũng đang thành lập một lực lượng đặc nhiệm trên toàn EU để điều phối các cuộc điều tra và thực thi xung quanh ChatGPT.
Ý đã cho OpenAI thời hạn đến ngày 30.4 để tuân thủ luật. Hôm 12.4, Cơ quan bảo vệ dữ liệu của Ý (Garante) đã công bố danh sách các yêu cầu mà ChatGPT phải đáp ứng để được hoạt động tại nước này.
Garante yêu cầu OpenAI phải thông báo với người dùng về “phương pháp và logic” đứng sau việc xử lý dữ liệu của ChatGPT. Ngoài ra, Garante cũng yêu cầu OpenAI cung cấp công cụ để cho phép mọi người, dù họ có dùng ChatGPT hay không, được yêu cầu hiệu chỉnh dữ liệu cá nhân không chính xác hoặc xóa dữ liệu.
Theo Garante, OpenAI cũng nên cho phép những ai không phải người dùng dễ dàng phản đối xử lý dữ liệu cá nhân của họ để đào tạo thuật toán. Công ty có trụ sở ở thành phố San Francisco (Mỹ) cũng cần giới thiệu hệ thống xác thực độ tuổi trước cuối tháng 9, loại trừ khả năng truy cập của người dưới 13 tuổi.
Garante sẽ tiếp tục điều tra các vi phạm quy định bảo vệ dữ liệu nếu có, bảo lưu quyền áp đặt bất kỳ biện pháp nào cần thiết vào giai đoạn cuối cuộc điều tra.
Nếu OpenAI không thể thuyết phục các nhà chức trách rằng các hoạt động sử dụng dữ liệu của họ là hợp pháp, ChatGPT có thể bị cấm ở một số quốc gia cụ thể hoặc thậm chí là toàn EU.
Alexis Leautier, chuyên gia AI tại Cơ quan bảo vệ dữ liệu của Pháp (CNIL), nói OpenAI phải đối mặt với những khoản phạt tiền nặng, thậm chí có thể bị buộc phải xóa các mô hình và dữ liệu được sử dụng để huấn luyện chúng.
Theo Lilian Edwards, giáo sư luật internet tại Đại học Newcastle (Anh), các vi phạm của OpenAI rõ ràng đến mức có khả năng vụ việc này sẽ kết thúc tại Tòa án Công lý của EU (tòa án cao nhất EU). Có thể mất nhiều năm trước khi chúng ta thấy phần trả lời cho các câu hỏi do Garante đặt ra.
Chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới
Quy định bảo vệ dữ liệu chung của EU (GDPR) là chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới và đã được sao chép rộng rãi. Các cơ quan quản lý ở khắp nơi từ Brazil đến bang California (Mỹ) sẽ chú ý đến những gì xảy ra tiếp theo và có thể thay đổi cách các công ty AI tiến hành thu thập dữ liệu.
Ngoài việc minh bạch hơn về các hoạt động dữ liệu của mình, OpenAI sẽ phải chỉ ra rằng đang sử dụng một trong hai cách hợp pháp có thể để thu thập dữ liệu huấn luyện cho các thuật toán của mình: Sự đồng ý hoặc “lợi ích hợp pháp”.
Dường như OpenAI sẽ không thể lập luận rằng đã nhận được sự đồng ý từ mọi người khi công ty thu thập dữ liệu của họ. Điều đó dẫn đến OpenAI sẽ lập luận rằng OpenAI có “lợi ích hợp pháp” khi làm như vậy. Lilian Edwards nói việc này có thể sẽ đòi hỏi OpenAI đưa ra một trường hợp thuyết phục trước các cơ quan quản lý về tầm quan trọng thực sự của ChatGPT để biện minh cho việc thu thập dữ liệu mà không có sự đồng ý.
OpenAI tin rằng họ tuân thủ luật về quyền riêng tư. Trong một bài đăng trên blog, công ty Mỹ nói rằng sẽ xóa thông tin cá nhân khỏi dữ liệu huấn luyện theo yêu cầu “nếu khả thi”.
OpenAI cho biết các mô hình của nó được huấn luyện dựa trên nội dung có sẵn công khai, nội dung được cấp phép và nội dung do người đánh giá tạo ra. Song điều đó là không đủ với Quy định bảo vệ dữ liệu chung của EU.
Lilian Edwards nói: “Mỹ có một học thuyết rằng khi mọi thứ ở nơi công cộng thì không còn là riêng tư nữa. Đó hoàn toàn không phải là cách thức hoạt động của luật châu Âu. GDPR trao cho mọi người quyền với tư cách là 'chủ thể dữ liệu'. Chẳng hạn như quyền được thông báo về cách dữ liệu của họ được thu thập và sử dụng cũng như quyền xóa dữ liệu của họ khỏi hệ thống, ngay cả khi chúng được công khai ngay từ đầu”.
Mò kim đáy bể
OpenAI còn gặp một vấn đề khác. Chính quyền Ý cho biết OpenAI không minh bạch về cách công ty thu thập dữ liệu người dùng trong giai đoạn sau huấn luyện, chẳng hạn như trong nhật ký trò chuyện về các tương tác của họ với ChatGPT.
Alexis Leautier nói: “Điều thực sự đáng lo ngại là cách ChatGPT sử dụng dữ liệu mà bạn cung cấp cho nó trong cuộc trò chuyện. Nhiều người có xu hướng chia sẻ thông tin thân mật, riêng tư với chatbot, nói với nó về những thứ như trạng thái tinh thần, sức khỏe hoặc ý kiến cá nhân của họ”.
Ông cho rằng sẽ có vấn đề nếu ChatGPT lấy lại dữ liệu nhạy cảm này chia sẻ cho người khác. Theo luật châu Âu, người dùng cần có thể xóa dữ liệu nhật ký trò chuyện của họ.
Theo Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức tại công ty khởi nghiệp Hugging Face, trước đây là đồng lãnh đạo bộ phận đạo đức AI của Google, OpenAI sẽ thấy gần như không thể xác định dữ liệu của các cá nhân và xóa nó khỏi các mô hình của mình.
OpenAI có thể tự cứu mình khỏi cơn đau đầu khổng lồ bằng cách xây dựng hệ thống lưu giữ hồ sơ dữ liệu mạnh mẽ ngay từ đầu, Margaret Mitchell nói. Thay vào đó, ngành công nghiệp AI thường xây dựng các bộ dữ liệu cho các mô hình AI bằng cách quét web một cách bừa bãi và sau đó thuê bên ngoài thực hiện công việc loại bỏ các điểm trùng lặp hoặc dữ liệu không liên quan, lọc những thứ không mong muốn và sửa lỗi chính tả.
Các phương pháp này và kích thước tập dữ liệu lớn đồng nghĩa các hãng công nghệ có xu hướng hiểu biết rất hạn chế về những gì đã đào tạo mô hình của họ.
Theo Nithya Sambasivan, cựu nhà khoa học nghiên cứu tại Google và là doanh nhân nghiên cứu các hoạt động thực hành dữ liệu của AI, các hãng công nghệ không ghi lại cách họ thu thập hoặc chú thích dữ liệu huấn luyện AI và có xu hướng không biết những gì trong bộ dữ liệu.
Việc tìm kiếm dữ liệu tiếng Ý trong bộ dữ liệu huấn luyện rộng lớn của ChatGPT sẽ như mò kim đáy bể. Ngay cả khi OpenAI xóa dữ liệu của người dùng, vẫn chưa rõ liệu việc đó có phải xóa vĩnh viễn hay không. Các nghiên cứu chỉ ra rằng các bộ dữ liệu tồn tại trên internet rất lâu sau khi bị xóa, bởi các bản sao của bản gốc thường vẫn tồn tại trực tuyến.
Margaret Mitchell nói: “Công nghệ xung quanh việc thu thập dữ liệu còn rất non trẻ”. Đó là bởi rất nhiều công việc đã được thực hiện để phát triển các kỹ thuật tiên tiến cho các mô hình AI, còn các phương pháp thu thập dữ liệu hầu như không thay đổi trong thập kỷ qua.
Trong cộng đồng AI, công việc trên các mô hình AI được chú trọng quá mức mà không quan tâm đến thứ khác, theo Margaret Mitchell. Bà nói: “Về mặt văn hóa, có một vấn đề trong học máy khi làm việc trên dữ liệu được coi là việc ngớ ngẩn, còn làm việc trên các mô hình được coi là công việc thực sự”.