Cạm bẫy số

Hàng triệu hộ chiếu, thẻ căn cước bị đưa vào bộ dữ liệu huấn luyện AI

Bùi Tú • 10/08/2025 12:30

Theo các nhà nghiên cứu, hàng triệu hình ảnh hộ chiếu, thẻ căn cước, thẻ tín dụng, giấy khai sinh và các tài liệu khác chứa dữ liệu cá nhân đang nằm trong DataComp CommonPool - một trong những bộ dữ liệu huấn luyện mã nguồn mở lớn nhất dành cho các mô hình tạo ảnh, huấn luyện AI.

*Dữ liệu cá nhân trên mạng không được bảo mật là điều nhiều người lo lắng*

Trong một phần nhỏ của bộ dữ liệu này (DataComp CommonPool) đã tìm thấy hàng nghìn hình ảnh loại này, gồm cả những khuôn mặt có thể nhận dạng được. Dữ liệu này đến từ internet. Do nhóm nghiên cứu mới chỉ kiểm tra được 0,1% dữ liệu, họ ước tính số lượng hình ảnh chứa dữ liệu cá nhân thực tế có thể lên tới “hàng trăm triệu”. Nghiên cứu mô tả chi tiết vấn đề này đã được công bố mùa hè năm nay trên nền tảng bản thảo arXiv.org.

Tìm thấy nhiều dữ liệu riêng tư nhạy cảm

William Agnew – nghiên cứu sinh sau tiến sĩ về đạo đức AI tại Đại học Carnegie Mellon, đồng tác giả nghiên cứu, kết luận rằng “bất cứ thứ gì bạn đưa lên mạng đều có thể bị thu thập và rất có thể đã bị thu thập rồi”. Nhóm nghiên cứu đã tìm thấy hàng nghìn tài liệu cá nhân xác thực, gồm ảnh thẻ tín dụng, bằng lái xe, hộ chiếu, giấy khai sinh... Trong trích xuất dữ liệu được kiểm tra, họ còn phát hiện 800 bộ hồ sơ xin việc (gồm CV và thư xin việc) có thể liên kết với người thật thông qua LinkedIn hoặc các nền tảng khác. Nhiều trường hợp khác cũng có khả năng là dữ liệu thật, nhưng không được xác minh do thời gian hạn chế hoặc chất lượng hình ảnh kém.

Một số hồ sơ xin việc chứa thông tin nhạy cảm về khuyết tật, lý lịch tư pháp, ngày và nơi sinh của người phụ thuộc... Nếu hồ sơ này liên kết với sự hiện diện trực tuyến, các nhà nghiên cứu còn tìm thấy thông tin liên lạc, số định danh chính phủ, dữ liệu nhân khẩu học, ảnh khuôn mặt, địa chỉ nhà riêng và cả thông tin liên lạc của người khác.

DataComp CommonPool, ra mắt năm 2023, là bộ dữ liệu công khai lớn nhất về cặp dữ liệu ảnh - văn bản, chứa 12,8 tỉ bản ghi để huấn luyện các mô hình tạo ảnh từ văn bản. Dù nhóm quản lý tuyên bố bộ dữ liệu chỉ dành cho nghiên cứu học thuật, giấy phép lại không cấm sử dụng thương mại. CommonPool được tạo ra để thay thế bộ dữ liệu LAION-5B, vốn đã được dùng để huấn luyện các mô hình như Stable Diffusion và Midjourney. Cả hai dựa trên nguồn dữ liệu cơ bản giống nhau: web scraping do tổ chức phi lợi nhuận Common Crawl thực hiện từ 2014 - 2022.

Các mô hình thương mại thường không công bố bộ dữ liệu huấn luyện. Thế nhưng, do CommonPool và LAION-5B chia sẻ nguồn dữ liệu, rất có thể cả hai đều chứa cùng loại dữ liệu cá nhân. Theo trang 3Tn, nhóm tạo CommonPool không phản hồi email yêu cầu làm rõ. Trong 2 năm qua, CommonPool đã được tải về hơn 2 triệu lần và theo Rachel Hong – nghiên cứu sinh tiến sĩ khoa học máy tính tại Đại học Washington, tác giả chính nghiên cứu: “có rất nhiều mô hình hạ nguồn được huấn luyện từ chính bộ dữ liệu này”.

Việc phân phối rộng rãi này kéo theo rủi ro bảo mật dữ liệu. Abeba Birhane - nhà khoa học nhận thức và chuyên gia đạo đức công nghệ tại Trinity College Dublin, nhận xét: “Tất cả các bộ dữ liệu web scraping quy mô lớn luôn chứa nội dung không nên có”. Ngoài thông tin nhận dạng cá nhân (PII), còn có cả hình ảnh lạm dụng tình dục trẻ em và nội dung thù ghét.

Nhóm quản lý CommonPool biết rằng bộ dữ liệu có khả năng chứa dữ liệu cá nhân và đã áp dụng một số biện pháp bảo vệ, như tự động phát hiện và làm mờ khuôn mặt. Tuy nhiên, trong phần dữ liệu nhỏ được kiểm tra, nhóm của Hong đã tìm và xác minh hơn 800 khuôn mặt bị thuật toán bỏ sót. Họ ước tính tổng cộng có thể có 102 triệu khuôn mặt công khai. Ngược lại, họ không dùng các bộ lọc mạnh để phát hiện và xóa chuỗi PII phổ biến như email hoặc số an sinh xã hội. Agnew cho biết: “Lọc dữ liệu cực kỳ khó. Muốn làm hiệu quả thì cần những tiến bộ vượt bậc trong công nghệ phát hiện và loại bỏ”. Nhưng nhóm tạo CommonPool không công bố chi tiết này.

Thiệt hại đã xảy ra

Nền tảng Hugging Face, nơi lưu trữ CommonPool, đã phát triển công cụ cho phép tìm kiếm và xóa dữ liệu cá nhân, nhưng chỉ áp dụng cho các lượt tải về sau này, không xử lý ngược lại cho các mô hình đã tải trước đó. Hơn nữa, người bị ảnh hưởng phải biết rằng dữ liệu của họ có trong bộ này. Florent Daudens từ Hugging Face cho biết bảo vệ dữ liệu tối đa cần một cách tiếp cận đa tầng trong toàn bộ hệ sinh thái AI và công cụ này chỉ là bước khởi đầu.

Ngay cả khi ai đó yêu cầu xóa dữ liệu của mình khỏi bộ huấn luyện, “nếu chỉ xóa dữ liệu cá nhân trong tập huấn luyện mà vẫn giữ mô hình đã huấn luyện và không huấn luyện lại, thì thiệt hại vẫn đã xảy ra”, Tiffany Li - Phó giáo sư luật tại Đại học San Francisco nêu quan điểm. Còn Agnew kết luận: “Web scraping chắc chắn sẽ hút cả dữ liệu riêng tư và ngay cả khi lọc, dữ liệu này vẫn tồn tại vì khối lượng quá lớn”.

CommonPool dựa trên dữ liệu thu thập 2014 - 2022, nghĩa là nhiều hình ảnh từ trước 2020 - thời điểm ChatGPT chưa ra đời. Ngay cả khi giả định một số người từng đồng ý công khai dữ liệu, họ vẫn chưa bao giờ đồng ý để dữ liệu đó được dùng huấn luyện AI, vì lúc đó công nghệ này chưa phổ biến. Do dữ liệu web thường bị sao chép lẫn nhau, ảnh gốc do chủ nhân đăng có thể xuất hiện trong nhiều bộ huấn luyện khác, ngay cả khi đã bị xóa trên trang gốc.

Nhóm nghiên cứu còn tìm thấy nhiều dữ liệu cá nhân của trẻ em, gồm ảnh giấy khai sinh, hộ chiếu và thông tin y tế – thường được chia sẻ với mục đích và thời hạn giới hạn, nhưng web scraper vẫn thu thập.

Luật bảo vệ dữ liệu chưa bắt kịp AI

Ben Winters - Giám đốc AI và quyền riêng tư tại Consumer Federation of America, nhận xét: “Điều này cho thấy sai lầm gốc rễ của các hệ thống AI dựa trên dữ liệu công khai”. Người dùng internet thường chỉ ý thức về một số rủi ro, chứ không nghĩ rằng dữ liệu của mình sẽ bị quét và dùng để huấn luyện AI. Hong và cộng sự cho rằng toàn ngành AI cần thay đổi tư duy. Việc quét dữ liệu bừa bãi gần như chắc chắn vi phạm các luật bảo vệ dữ liệu hiện hành, đồng thời cho thấy hạn chế của chúng.

Marietje Schaake - cựu chính trị gia Hà Lan, chuyên gia chính sách công nghệ tại Stanford, lưu ý rằng luật bảo vệ dữ liệu như GDPR ở châu Âu hay CCPA ở California chỉ áp dụng cho công ty đáp ứng tiêu chí nhất định, không nhất thiết áp dụng cho các nhóm nghiên cứu tạo CommonPool. Thêm vào đó, các luật này thường có ngoại lệ cho dữ liệu “công khai”.

Các nhà nghiên cứu AI lâu nay mặc định rằng mọi thứ công khai trên internet đều không còn riêng tư. Nhưng Hong, Agnew và đồng nghiệp hy vọng nghiên cứu này sẽ thách thức giả định sai lầm đó. Hong nói: “Chúng tôi thấy rằng ‘công khai’ gồm rất nhiều thứ mà nhiều người coi là riêng tư - hồ sơ xin việc, ảnh gia đình, số thẻ tín dụng, giấy tờ tùy thân, blog cá nhân… Đây không phải là thứ mọi người muốn bị bên thứ ba sử dụng”. Schaake hy vọng nghiên cứu này sẽ là hồi chuông cảnh tỉnh, và dẫn đến thay đổi.

Bùi Tú