Sam Altman, Giám đốc điều hành OpenAI, hôm 24.5 cho biết công ty có thể cân nhắc rời khỏi châu Âu nếu không thể tuân thủ các quy định về trí tuệ nhân tạo sắp tới của Liên minh châu Âu (EU).
EU đang làm việc để tạo ra bộ quy tắc đầu tiên trên toàn cầu nhằm quản lý trí tuệ nhân tạo (AI). Theo dự thảo, các công ty triển khai công cụ generative AI, chẳng hạn ChatGPT của OpenAI, sẽ phải tiết lộ bất kỳ tài liệu có bản quyền nào được sử dụng để phát triển hệ thống của họ.
Generative AI là một loại trí tuệ nhân tạo mà máy tính được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu hoặc học máy trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.
Trước khi xem xét rút lui, OpenAI sẽ cố gắng tuân thủ quy định ở châu Âu khi nó được ban hành, Sam Altman nói trong sự kiện ở London (thủ đô Anh).
"Dự thảo Đạo luật AI của EU hiện tạiđề xuất quy định quá khắt khe, nhưng chúng tôi nghe nói rằng nó sẽ bị rút lại. Họ vẫn đang thảo luận về vấn đề này", ông nói với Reuters.
Các nghị sĩ EU đã đạt được điểm chung về dự thảo đạo luật AI vào đầu tháng 5. Bây giờ, các đại diện Nghị viện, Hội đồng và Ủy ban châu Âu sẽ tranh luận để thống nhất các chi tiết cuối cùng của dự luật.
“Rất nhiều điều họ có thể làm, như thay đổi định nghĩa về các hệ thống AI có mục đích chung để phù hợp với các quy định mới. Rất nhiều thứ có thể được thực hiện", Sam Altman nói.
Hệ thống AI có mục đích chung là một danh mục được các nhà làm luật đề xuất để giải thích cho các công cụ AI có nhiều ứng dụng, chẳng hạn các mô hình generative AI như ChatGPT do Microsoft hậu thuẫn.
Chưa tính đến Đạo luật AI của EU, công ty khởi nghiệp có trụ sở tại San Francisco (Mỹ) còn phải tuân thủ Quy định bảo vệ dữ liệu chung của EU (GDPR). Đây là chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới.
Ngoài việc minh bạch hơn về các hoạt động dữ liệu của mình, OpenAI sẽ phải chỉ ra rằng đang sử dụng một trong hai cách hợp pháp có thể để thu thập dữ liệu huấn luyện cho các thuật toán của mình: Sự đồng ý hoặc “lợi ích hợp pháp”.
Dường như OpenAI sẽ không thể lập luận rằng đã nhận được sự đồng ý từ mọi người khi công ty thu thập dữ liệu của họ. Điều đó dẫn đến OpenAI sẽ lập luận rằng OpenAI có “lợi ích hợp pháp” khi làm như vậy. Lilian Edwards, giáo sư luật internet tại Đại học Newcastle (Anh), nói việc này có thể sẽ đòi hỏi OpenAI đưa ra một trường hợp thuyết phục trước các cơ quan quản lý về tầm quan trọng thực sự của ChatGPT để biện minh cho việc thu thập dữ liệu mà không có sự đồng ý.
OpenAI tin rằng họ tuân thủ luật về quyền riêng tư. Trong một bài đăng trên blog, công ty Mỹ nói rằng sẽ xóa thông tin cá nhân khỏi dữ liệu huấn luyện theo yêu cầu “nếu khả thi”.
OpenAI cho biết các mô hình của nó được huấn luyện dựa trên nội dung có sẵn công khai, nội dung được cấp phép và nội dung do người đánh giá tạo ra. Song, điều đó là không đủ với Quy định bảo vệ dữ liệu chung của EU.
Nếu OpenAI không thể thuyết phục các nhà chức trách rằng các hoạt động sử dụng dữ liệu của họ là hợp pháp, ChatGPT có thể bị cấm ở một số quốc gia cụ thể hoặc thậm chí là toàn EU.
Alexis Leautier, chuyên gia AI tại Cơ quan bảo vệ dữ liệu của Pháp (CNIL), nói OpenAI phải đối mặt với những khoản phạt tiền nặng, thậm chí có thể bị buộc phải xóa các mô hình và dữ liệu được sử dụng để huấn luyện chúng.
OpenAI còn gặp một vấn đề khác. Sau khi tạm vô hiệu ChatGPT cuối tháng 3, Cơ quan bảo vệ dữ liệu của Ý (Garante) cho biết OpenAI không minh bạch về cách công ty thu thập dữ liệu người dùng trong giai đoạn sau huấn luyện, chẳng hạn như trong nhật ký trò chuyện về các tương tác của họ với ChatGPT.
Alexis Leautier nói: “Điều thực sự đáng lo ngại là cách ChatGPT sử dụng dữ liệu mà bạn cung cấp cho nó trong cuộc trò chuyện. Nhiều người có xu hướng chia sẻ thông tin thân mật, riêng tư với chatbot, nói với nó về những thứ như trạng thái tinh thần, sức khỏe hoặc ý kiến cá nhân của họ”.
Ông cho rằng sẽ có vấn đề nếu ChatGPT lấy lại dữ liệu nhạy cảm này chia sẻ cho người khác. Theo luật châu Âu, người dùng cần có thể xóa dữ liệu nhật ký trò chuyện của họ.
Theo Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức tại công ty khởi nghiệp Hugging Face, trước đây là đồng lãnh đạo bộ phận đạo đức AI của Google, OpenAI sẽ thấy gần như không thể xác định dữ liệu của các cá nhân và xóa nó khỏi các mô hình của mình.
OpenAI có thể tự cứu mình khỏi cơn đau đầu khổng lồ bằng cách xây dựng hệ thống lưu giữ hồ sơ dữ liệu mạnh mẽ ngay từ đầu, Margaret Mitchell nói. Thay vào đó, ngành công nghiệp AI thường xây dựng các bộ dữ liệu cho các mô hình AI bằng cách quét web một cách bừa bãi và sau đó thuê bên ngoài thực hiện công việc loại bỏ các điểm trùng lặp hoặc dữ liệu không liên quan, lọc những thứ không mong muốn và sửa lỗi chính tả.
Các phương pháp này và kích thước tập dữ liệu lớn đồng nghĩa các hãng công nghệ có xu hướng hiểu biết rất hạn chế về những gì đã đào tạo mô hình của họ.
Theo Nithya Sambasivan, cựu nhà khoa học nghiên cứu tại Google và là doanh nhân nghiên cứu các hoạt động thực hành dữ liệu của AI, các hãng công nghệ không ghi lại cách họ thu thập hoặc chú thích dữ liệu huấn luyện AI và có xu hướng không biết những gì trong bộ dữ liệu.
Việc tìm kiếm dữ liệu tiếng Ý trong bộ dữ liệu huấn luyện rộng lớn của ChatGPT sẽ như mò kim đáy bể. Ngay cả khi OpenAI xóa dữ liệu của người dùng, vẫn chưa rõ liệu việc đó có phải xóa vĩnh viễn hay không. Các nghiên cứu chỉ ra rằng các bộ dữ liệu tồn tại trên internet rất lâu sau khi bị xóa, bởi các bản sao của bản gốc thường vẫn tồn tại trực tuyến.
Margaret Mitchell nói: “Công nghệ xung quanh việc thu thập dữ liệu còn rất non trẻ”. Đó là bởi rất nhiều công việc đã được thực hiện để phát triển các kỹ thuật tiên tiến cho những mô hình AI, còn các phương pháp thu thập dữ liệu hầu như không thay đổi trong thập kỷ qua.
Trong cộng đồng AI, công việc trên các mô hình AI được chú trọng quá mức mà không quan tâm đến thứ khác, theo Margaret Mitchell. Bà nói: “Về mặt văn hóa, có một vấn đề trong học máy khi làm việc trên dữ liệu được coi là việc ngớ ngẩn, còn làm việc trên các mô hình được coi là công việc thực sự”.
Trước nguy cơ ChatGPT bị cấm ở EU, hôm 25.4, OpenAI đã giới thiệu “chế độ ẩn danh" cho chabot AI này, không lưu lại lịch sử cuộc trò chuyện của người dùng hoặc sử dụng chúng để cải thiện AI.
OpenAI cũng lên kế hoạch cho phiên bản ChatGPT Business với tính năng điều khiển dữ liệu bổ sung. Tính năng này có thể sẽ được cung cấp cho các doanh nghiệp hoặc tổ chức sử dụng ChatGPT để tương tác với khách hàng hoặc người dùng của họ. Ngoài ra, tính năng đó cũng có thể cho phép nhà quản lý doanh nghiệp kiểm soát quyền truy cập vào dữ liệu người dùng, quản lý quyền riêng tư, hoặc theo dõi các cuộc trò chuyện để đảm bảo tuân thủ các quy định và chính sách của doanh nghiệp.