Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

OpenAI lâm nguy vì gần như không thể tuân thủ các quy tắc bảo vệ dữ liệu của EU

Sơn Vân | 20/04/2023, 14:50

OpenAI chỉ còn hơn một tuần để tuân thủ luật bảo vệ dữ liệu của Liên minh châu Âu (EU) sau lệnh cấm tạm thời ở Ý và hàng loạt cuộc điều tra từ các quốc gia khác. Nếu không thành công, OpenAI có thể bị phạt nặng, buộc phải xóa dữ liệu hoặc thậm chí bị cấm.

Thế nhưng, các chuyên gia nói với trang MIT Technology Review rằng OpenAI gần như không thể tuân thủ các quy tắc này, do dữ liệu được sử dụng để huấn luyện các mô hình AI thu thập từ nội dung trên internet.

Trong quá trình phát triển AI, mô hình phổ biến nhất là càng nhiều dữ liệu huấn luyện càng tốt. Mô hình GPT-2 của OpenAI có một bộ dữ liệu bao gồm 40 GB văn bản. GPT-3, mô hình ngôn ngữ lớn để ChatGPT hoạt động, được huấn luyện trên 570 GB dữ liệu. OpenAI đã không chia sẻ kích thước bộ dữ liệu cho mô hình ngôn ngữ lớn mới nhất là GPT-4.

Tuy nhiên, sự khát khao của OpenAI về các mô hình lớn hơn khiến công ty trả giá. Vài tuần qua, một số cơ quan bảo vệ dữ liệu phương Tây đã bắt đầu điều tra cách OpenAI thu thập và xử lý dữ liệu để cung cấp sức mạnh cho ChatGPT. Họ tin rằng OpenAI thu thập dữ liệu cá nhân của nhiều người, chẳng hạn tên hoặc địa chỉ email, rồi sử dụng mà không có sự đồng ý của họ.

Ý đã tạm thời cấm ChatGPT như một biện pháp phòng ngừa và các cơ quan quản lý dữ liệu của Pháp, Đức, Iceland, Canada cũng đang điều tra cách OpenAI thu thập và sử dụng dữ liệu. Ủy ban bảo vệ dữ liệu châu Âu cũng đang thành lập một lực lượng đặc nhiệm trên toàn EU để điều phối các cuộc điều tra và thực thi xung quanh ChatGPT.

Ý đã cho OpenAI thời hạn đến ngày 30.4 để tuân thủ luật. Hôm 12.4, Cơ quan bảo vệ dữ liệu của Ý (Garante) đã công bố danh sách các yêu cầu mà ChatGPT phải đáp ứng để được hoạt động tại nước này.

Garante yêu cầu OpenAI phải thông báo với người dùng về “phương pháp và logic” đứng sau việc xử lý dữ liệu của ChatGPT. Ngoài ra, Garante cũng yêu cầu OpenAI cung cấp công cụ để cho phép mọi người, dù họ có dùng ChatGPT hay không, được yêu cầu hiệu chỉnh dữ liệu cá nhân không chính xác hoặc xóa dữ liệu.

Theo Garante, OpenAI cũng nên cho phép những ai không phải người dùng dễ dàng phản đối xử lý dữ liệu cá nhân của họ để đào tạo thuật toán. Công ty có trụ sở ở thành phố San Francisco (Mỹ) cũng cần giới thiệu hệ thống xác thực độ tuổi trước cuối tháng 9, loại trừ khả năng truy cập của người dưới 13 tuổi.

Garante sẽ tiếp tục điều tra các vi phạm quy định bảo vệ dữ liệu nếu có, bảo lưu quyền áp đặt bất kỳ biện pháp nào cần thiết vào giai đoạn cuối cuộc điều tra.

Nếu OpenAI không thể thuyết phục các nhà chức trách rằng các hoạt động sử dụng dữ liệu của họ là hợp pháp, ChatGPT có thể bị cấm ở một số quốc gia cụ thể hoặc thậm chí là toàn EU.

Alexis Leautier, chuyên gia AI tại Cơ quan bảo vệ dữ liệu của Pháp (CNIL), nói OpenAI phải đối mặt với những khoản phạt tiền nặng, thậm chí có thể bị buộc phải xóa các mô hình và dữ liệu được sử dụng để huấn luyện chúng.

Theo Lilian Edwards, giáo sư luật internet tại Đại học Newcastle (Anh), các vi phạm của OpenAI rõ ràng đến mức có khả năng vụ việc này sẽ kết thúc tại Tòa án Công lý của EU (tòa án cao nhất EU). Có thể mất nhiều năm trước khi chúng ta thấy phần trả lời cho các câu hỏi do Garante đặt ra.

openai-lam-nguy-vi-gan-nhu-khong-the-tuan-thu-cac-quy-tac-bao-ve-du-lieu-cua-eu.jpg — OpenAI có thể bị phạt nặng, buộc phải xóa dữ liệu hoặc thậm chí bị cấm vì gần như không thể tuân thủ các quy tắc bảo vệ dữ liệu của EU - Ảnh: Internet

Chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới

Quy định bảo vệ dữ liệu chung của EU (GDPR) là chế độ bảo vệ dữ liệu nghiêm ngặt nhất thế giới và đã được sao chép rộng rãi. Các cơ quan quản lý ở khắp nơi từ Brazil đến bang California (Mỹ) sẽ chú ý đến những gì xảy ra tiếp theo và có thể thay đổi cách các công ty AI tiến hành thu thập dữ liệu.

Ngoài việc minh bạch hơn về các hoạt động dữ liệu của mình, OpenAI sẽ phải chỉ ra rằng đang sử dụng một trong hai cách hợp pháp có thể để thu thập dữ liệu huấn luyện cho các thuật toán của mình: Sự đồng ý hoặc “lợi ích hợp pháp”.

Dường như OpenAI sẽ không thể lập luận rằng đã nhận được sự đồng ý từ mọi người khi công ty thu thập dữ liệu của họ. Điều đó dẫn đến OpenAI sẽ lập luận rằng OpenAI có “lợi ích hợp pháp” khi làm như vậy. Lilian Edwards nói việc này có thể sẽ đòi hỏi OpenAI đưa ra một trường hợp thuyết phục trước các cơ quan quản lý về tầm quan trọng thực sự của ChatGPT để biện minh cho việc thu thập dữ liệu mà không có sự đồng ý.

OpenAI tin rằng họ tuân thủ luật về quyền riêng tư. Trong một bài đăng trên blog, công ty Mỹ nói rằng sẽ xóa thông tin cá nhân khỏi dữ liệu huấn luyện theo yêu cầu “nếu khả thi”.

OpenAI cho biết các mô hình của nó được huấn luyện dựa trên nội dung có sẵn công khai, nội dung được cấp phép và nội dung do người đánh giá tạo ra. Song điều đó là không đủ với Quy định bảo vệ dữ liệu chung của EU.

Lilian Edwards nói: “Mỹ có một học thuyết rằng khi mọi thứ ở nơi công cộng thì không còn là riêng tư nữa. Đó hoàn toàn không phải là cách thức hoạt động của luật châu Âu. GDPR trao cho mọi người quyền với tư cách là 'chủ thể dữ liệu'. Chẳng hạn như quyền được thông báo về cách dữ liệu của họ được thu thập và sử dụng cũng như quyền xóa dữ liệu của họ khỏi hệ thống, ngay cả khi chúng được công khai ngay từ đầu”.

Mò kim đáy bể

OpenAI còn gặp một vấn đề khác. Chính quyền Ý cho biết OpenAI không minh bạch về cách công ty thu thập dữ liệu người dùng trong giai đoạn sau huấn luyện, chẳng hạn như trong nhật ký trò chuyện về các tương tác của họ với ChatGPT.

Alexis Leautier nói: “Điều thực sự đáng lo ngại là cách ChatGPT sử dụng dữ liệu mà bạn cung cấp cho nó trong cuộc trò chuyện. Nhiều người có xu hướng chia sẻ thông tin thân mật, riêng tư với chatbot, nói với nó về những thứ như trạng thái tinh thần, sức khỏe hoặc ý kiến cá nhân của họ”.

Ông cho rằng sẽ có vấn đề nếu ChatGPT lấy lại dữ liệu nhạy cảm này chia sẻ cho người khác. Theo luật châu Âu, người dùng cần có thể xóa dữ liệu nhật ký trò chuyện của họ.

Theo Margaret Mitchell, nhà nghiên cứu AI và khoa học đạo đức tại công ty khởi nghiệp Hugging Face, trước đây là đồng lãnh đạo bộ phận đạo đức AI của Google, OpenAI sẽ thấy gần như không thể xác định dữ liệu của các cá nhân và xóa nó khỏi các mô hình của mình.

OpenAI có thể tự cứu mình khỏi cơn đau đầu khổng lồ bằng cách xây dựng hệ thống lưu giữ hồ sơ dữ liệu mạnh mẽ ngay từ đầu, Margaret Mitchell nói. Thay vào đó, ngành công nghiệp AI thường xây dựng các bộ dữ liệu cho các mô hình AI bằng cách quét web một cách bừa bãi và sau đó thuê bên ngoài thực hiện công việc loại bỏ các điểm trùng lặp hoặc dữ liệu không liên quan, lọc những thứ không mong muốn và sửa lỗi chính tả.

Các phương pháp này và kích thước tập dữ liệu lớn đồng nghĩa các hãng công nghệ có xu hướng hiểu biết rất hạn chế về những gì đã đào tạo mô hình của họ.

Theo Nithya Sambasivan, cựu nhà khoa học nghiên cứu tại Google và là doanh nhân nghiên cứu các hoạt động thực hành dữ liệu của AI, các hãng công nghệ không ghi lại cách họ thu thập hoặc chú thích dữ liệu huấn luyện AI và có xu hướng không biết những gì trong bộ dữ liệu.

Việc tìm kiếm dữ liệu tiếng Ý trong bộ dữ liệu huấn luyện rộng lớn của ChatGPT sẽ như mò kim đáy bể. Ngay cả khi OpenAI xóa dữ liệu của người dùng, vẫn chưa rõ liệu việc đó có phải xóa vĩnh viễn hay không. Các nghiên cứu chỉ ra rằng các bộ dữ liệu tồn tại trên internet rất lâu sau khi bị xóa, bởi các bản sao của bản gốc thường vẫn tồn tại trực tuyến.

Margaret Mitchell nói: “Công nghệ xung quanh việc thu thập dữ liệu còn rất non trẻ”. Đó là bởi rất nhiều công việc đã được thực hiện để phát triển các kỹ thuật tiên tiến cho các mô hình AI, còn các phương pháp thu thập dữ liệu hầu như không thay đổi trong thập kỷ qua.

Trong cộng đồng AI, công việc trên các mô hình AI được chú trọng quá mức mà không quan tâm đến thứ khác, theo Margaret Mitchell. Bà nói: “Về mặt văn hóa, có một vấn đề trong học máy khi làm việc trên dữ liệu được coi là việc ngớ ngẩn, còn làm việc trên các mô hình được coi là công việc thực sự”.

Bài liên quan

Hãng tiếp thị hàng đầu Trung Quốc dùng AI giống ChatGPT thay nhà thiết kế và viết quảng cáo bên ngoài

BlueFocus cho biết sẽ chấm dứt vô thời hạn việc thuê các nhà thiết kế và viết quảng cáo bên thứ ba để sử dụng các công cụ trí tuệ nhân tạo (AI) giống ChatGPT, làm tăng thêm mối lo ngại về tác động của công nghệ này với việc làm.

Đọc tiếp

Meta có tạo ra nền tảng AI để cạnh tranh với ChatGPT?

ChatGPT hiểu được phát ngôn của Fed và biến động giá cổ phiếu từ tiêu đề bài viết

Cảnh sát bắt kỹ sư AI được Elon Musk thuê để tạo chatbot thách thức ChatGPT

(0) Bình luận

Xếp theo:

Đọc thêm Thế giới số

Nổi bật Một thế giới

Tổng Bí thư Tô Lâm: Phát huy thế mạnh để vùng đất Quảng - Đà vươn ra biển lớn

7 giờ trước Sự kiện

Chiều 29.3, tại thành phố Đà Nẵng, Tổng Bí thư Tô Lâm và đoàn công tác Trung ương làm việc với Ban Thường vụ Thành ủy Đà Nẵng và Ban Thường vụ Tỉnh ủy Quảng Nam.

Thủ tướng đề nghị Tập đoàn Embraer hợp tác phát triển công nghiệp hàng không

Chiều 29.3, tại Hà Nội, Thủ tướng Phạm Minh Chính đã tiếp ông Francisco Gomes Neto, Chủ tịch...
CEO Xpeng: Thị trường ô tô bay sẽ lớn hơn xe điện trong hai thập kỷ tới

He Xiaopeng, Giám đốc điều hành Xpeng, tin rằng thị trường ô tô bay toàn cầu có thể đạt 2.000...
Khởi công cầu đi bộ gần 1.000 tỉ đồng qua sông Sài Gòn

Ngày 29.3, UBND TP.HCM tổ chức lễ khởi công cầu đi bộ qua sông Sài Gòn dài 720m, dự kiến hoàn...

Đừng bỏ lỡ

TP.Thủ Đức tổ chức ngày hội giáo dục STEM

6 giờ trước Giáo dục

Ngày 29.3, UBND và Phòng Giáo dục - Đào tạo TP.Thủ Đức (TP.HCM) tổ chức Ngày hội STEM lần thứ 3 năm 2025 với chủ đề "Vui học - Sáng tạo cùng AI".
75 doanh nghiệp tham gia Giải bóng đá Đại học HUTECH

11 giờ trước Thể thao

Ngày 29.3, Hội Cựu sinh viên; Câu lạc bộ Doanh nhân; Trung tâm Hợp tác doanh nghiệp, Trường đại học Công nghệ TP.Hồ Chí Minh phối hợp tổ chức Giải bóng đá giao lưu giữa cựu sinh viên trường và lãnh đạo các doanh nghiệp năm 2025 (Hutech Alumni Football 2025).
Giá vàng thế giới lại lập đỉnh

11 giờ trước Chuyển động

Trang The Economic Times đưa tin giá vàng thế giới trong phiên giao dịch ngày 28.3 lại tăng vọt lên mức cao kỷ lục do giới đầu tư đổ xô mua loại tài sản trú ẩn này giữa lo ngại căng thẳng thương mại leo thang.
Tổng Bí thư Tô Lâm: Đà Nẵng đang đứng trước vận hội mới, nhưng tuyệt đối không được hoang mang, lo lắng trước những khó khăn, thách thức

12 giờ trước Sự kiện

Sáng 29.3, tại TP.Đà Nẵng, Thành ủy, Hội đồng nhân dân, Ủy ban nhân dân, Ủy ban Mặt trận Tổ quốc Việt Nam TP.Đà Nẵng tổ chức lễ kỷ niệm 95 năm ngày thành lập Đảng bộ thành phố (28.3.1930 - 28.3.2025) và 50 năm ngày giải phóng TP.Đà Nẵng (29.3.1975 - 29.3./2025).
Số người chết do động đất ở Myanmar vượt 1.000

13 giờ trước Chuyển động

Đài truyền hình Myanmar MRTV ngày 29.3 đưa tin số người chết trong trận động đất mạnh 7,7 độ richter ở nước này đã lên đến ít nhất 1.002.

Mới nhất

Tổng Bí thư Tô Lâm: Phát huy thế mạnh để vùng đất Quảng - Đà vươn ra biển lớn

7 giờ trước Sự kiện

Chiều 29.3, tại thành phố Đà Nẵng, Tổng Bí thư Tô Lâm và đoàn công tác Trung ương làm việc với Ban Thường vụ Thành ủy Đà Nẵng và Ban Thường vụ Tỉnh ủy Quảng Nam.
Thủ tướng đề nghị Tập đoàn Embraer hợp tác phát triển công nghiệp hàng không

7 giờ trước Sự kiện

Chiều 29.3, tại Hà Nội, Thủ tướng Phạm Minh Chính đã tiếp ông Francisco Gomes Neto, Chủ tịch Tập đoàn Embraer của Brazil đang cùng đoàn doanh nghiệp tháp tùng Tổng thống Brazil Lula da Silva thăm chính thức Việt Nam.
CEO Xpeng: Thị trường ô tô bay sẽ lớn hơn xe điện trong hai thập kỷ tới

8 giờ trước Nhịp đập khoa học

He Xiaopeng, Giám đốc điều hành Xpeng, tin rằng thị trường ô tô bay toàn cầu có thể đạt 2.000 tỉ USD trong hai thập kỷ tới, gấp đôi quy mô của phương tiện trên bộ.
Khởi công cầu đi bộ gần 1.000 tỉ đồng qua sông Sài Gòn

12 giờ trước Hạ tầng và bất động sản

Ngày 29.3, UBND TP.HCM tổ chức lễ khởi công cầu đi bộ qua sông Sài Gòn dài 720m, dự kiến hoàn thành dịp lễ 30.4 năm 2026.
Bất động sản sẽ hưởng lợi khi dòng tiền 'khủng' được bơm ra thị trường

16 giờ trước Hạ tầng và bất động sản

Với mục tiêu tăng trưởng tín dụng 16% trong năm 2025, tương đương 2,5 triệu tỉ đồng bơm ra thị trường, bất động sản (BĐS) được dự báo sẽ hưởng lợi lớn từ dòng tiền này.