Các nhà nghiên cứu của Đại học Stanford (Mỹ) đã tìm thấy hơn 1.000 hình ảnh lạm dụng tình dục trẻ em trong cơ sở dữ liệu được sử dụng để đào tạo các công cụ trí tuệ nhân tạo (AI).
Thế giới gia đình

Các nhà nghiên cứu phát hiện bộ dữ liệu AI lớn chứa hơn 1.000 ảnh lạm dụng tình dục trẻ em

Sơn Vân 20/12/2023 21:55

Các nhà nghiên cứu của Đại học Stanford (Mỹ) đã tìm thấy hơn 1.000 hình ảnh lạm dụng tình dục trẻ em trong cơ sở dữ liệu được sử dụng để đào tạo các công cụ trí tuệ nhân tạo (AI).

Hôm 20.12, các nhà nghiên cứu của Đại học Stanford cho biết hơn 1.000 hình ảnh lạm dụng tình dục trẻ em đã được tìm thấy trong cơ sở dữ liệu nổi bật sử dụng để đào tạo các công cụ AI. Điều này nhấn mạnh nguy cơ nội dung này có thể đã giúp huấn luyện các trình tạo ảnh AI tạo ra những hình ảnh giả mạo mới và thực tế về lạm dụng tình dục trẻ em.

Trong một báo cáo do Đài quan sát Internet của Đại học Stanford công bố, các nhà nghiên cứu cho biết đã tìm thấy ít nhất 1.008 ảnh lạm dụng trẻ em ở một cơ sở dữ liệu hình ảnh mã nguồn mở phổ biến có tên LAION-5B, mà các mô hình tạo ảnh AI như Stable Diffusion dựa vào để tạo ra những bức ảnh siêu thực.

Theo các nhà nghiên cứu về an toàn trẻ em, phát hiện này được đưa ra khi các công cụ AI ngày càng được quảng bá trên các diễn đàn ấu dâm. Các chuyên gia cho biết trình tạo ảnh AI thường chỉ cần huấn luyện trên một số ít ảnh để tái tạo chúng chính xác. Vì thế, sự hiện diện của hơn 1.000 ảnh lạm dụng tình dục trẻ em trong dữ liệu huấn luyện có thể khiến các trình tạo hình ảnh AI có khả năng đáng lo ngại.

David Thiel, tác giả báo cáo và chuyên gia công nghệ tại Đài quan sát Internet của Đại học Stanford, nói những bức ảnh “về cơ bản mang lại lợi thế cho mô hình AI trong việc có thể tạo ra nội dung lạm dụng tình dục trẻ em theo cách giống như thực hiện việc này ngoài đời thực”.

Đại diện của LAION cho biết đã tạm thời gỡ bộ dữ liệu LAION-5B xuống “để đảm bảo an toàn trước khi xuất bản lại”.

cac-nha-nghien-cuu-phat-hien-bo-du-lieu-ai-lon-chua-hon-1-000-anh-lam-dung-tinh-duc-tre-em.jpg
Ẩn trong nền tảng của các trình tạo hình ảnh AI phổ biến là hơn 1.000 ảnh lạm dụng tình dục trẻ em - Ảnh: AP

Những năm gần đây, các công cụ AI mới (được gọi là mô hình khuếch tán) đã xuất hiện và cho phép người dùng tạo ra các ảnh thuyết phục bằng cách nhập mô tả ngắn về những gì họ muốn xem.

Những mô hình AI này được cung cấp hàng tỉ hình ảnh lấy từ internet và mô phỏng các mẫu hình thị giác để tạo ra ảnh của riêng chúng.

Những chương trình AI này đã được ca ngợi vì khả năng tạo ra các bức ảnh siêu thực, nhưng cũng được tăng tốc độ và quy mô để những kẻ ấu dâm có thể tạo ra ảnh rõ ràng mới. Lý do bởi các công cụ AI này đòi hỏi ít hiểu biết về kỹ thuật hơn phương pháp trước đây, chẳng hạn dán khuôn mặt trẻ em lên cơ thể người lớn để tạo ra deepfake.

Nghiên cứu của David Thiel chỉ ra sự tiến triển trong việc hiểu cách các công cụ AI tạo ra nội dung lạm dụng tình dục trẻ em. Trước đây, người ta cho rằng các công cụ AI kết hợp hai khái niệm như “trẻ em” và “nội dung khiêu dâm” để tạo ra những hình ảnh không đứng đắn. Giờ đây, những phát hiện này cho thấy hình ảnh thực tế đang được sử dụng để tinh chỉnh kết quả đầu ra AI của những bức ảnh giả mạo lạm dụng tình dục trẻ em và giúp chúng giống thực tế hơn.

Hơn 1.000 ảnh lạm dụng tình dục trẻ em là một phần nhỏ của cơ sở dữ liệu LAION-5B, chứa hàng tỉ ảnh. Những nhà nghiên cứu cho rằng chúng có thể vô tình được thêm vào khi người tạo cơ sở dữ liệu lấy hình ảnh từ mạng xã hội, các trang video người lớn và internet mở.

Song thực tế là những hình ảnh bất hợp pháp được đưa vào LAION-5B làm nổi bật việc biết rất ít thông tin tập dữ liệu cốt lõi của các công cụ AI mạnh mẽ nhất. Các nhà phê bình lo lắng rằng những mô tả thiên vị và nội dung tục tĩu được tìm thấy trong cơ sở dữ liệu hình ảnh AI có thể ảnh hưởng một cách không rõ ràng đến những gì được tạo ra.

David Thiel nói thêm rằng có một số cách để giải quyết vấn đề này. Các giao thức có thể được đưa ra để sàng lọc và xóa nội dung lạm dụng tình dục trẻ em và khiêu dâm trái phép khỏi cơ sở dữ liệu. Các bộ dữ liệu đào tạo AI có thể minh bạch hơn và gồm cả thông tin về nội dung của chúng. Các mô hình hình ảnh sử dụng tập dữ liệu có nội dung lạm dụng tình dục trẻ em có thể được dạy để "quên" cách tạo hình ảnh rõ ràng.

Ảnh khỏa thân giả được tạo bằng AI đang bùng nổ và hủy hoại cuộc sống của nhiều thanh thiếu niên.

Các nhà nghiên cứu đã quét các hình ảnh lạm dụng tình dục trẻ em bằng cách tìm kiếm hash (các đoạn mã tương ứng xác định chúng), được lưu trữ trong danh sách theo dõi trực tuyến của Trung tâm Quốc gia về Trẻ em mất tích và bị lạm dụng ở Canada cùng Trung tâm Bảo vệ trẻ em Canada.

David Thiel cho biết những bức ảnh này đang trong quá trình bị xóa khỏi cơ sở dữ liệu đào tạo.

Mối lo học sinh dùng AI tạo hình ảnh giả mạo không đứng đắn về bạn cùng lớp

Các chuyên gia về an toàn trẻ em trực tuyến cảnh báo rằng trẻ em đang sử dụng trình tạo hình ảnh AI ở trường để tạo ra nội dung không đứng đắn về những đứa trẻ khác.

Tổ chức The UK Safer Internet Centre (UKSIC) ở Vương quốc Anh đang kêu gọi "hành động khẩn cấp" để giúp trẻ em hiểu những rủi ro liên quan đến những hình ảnh AI như vậy, mà họ cho rằng theo pháp lý được coi là nội dung lạm dụng tình dục trẻ em.

UKSIC cho biết dù trẻ em có thể tạo ra những hình ảnh này vì tò mò nhưng chúng có khả năng nhanh chóng vượt khỏi tầm kiểm soát và lan truyền trên mạng, đồng thời được sử dụng để lạm dụng hoặc tống tiền trẻ em.

Emma Hardy, Giám đốc UKSIC, nói những hình ảnh AI mang tính chân thực và có thể so sánh với những bức ảnh chuyên nghiệp.

Bà cho hay: “Khả năng lạm dụng AI là rất đáng sợ. Đây không phải là một số rủi ro về mặt lý thuyết. Đó là điều chúng ta đang thấy ở đây và bây giờ. Chúng ta phải đưa ra các biện pháp để ngăn chặn việc lạm dụng công nghệ này. Hiện tại, nếu không kiểm soát và không được quy định, AI có thể làm cho trẻ em trở nên ít an toàn”.

UKSIC cho biết đã nhận được một số lượng nhỏ báo cáo từ các trường học và kêu gọi các trường đảm bảo hệ thống giám sát của họ có thể ngăn chặn tài liệu bất hợp pháp một cách hiệu quả.

David Hardy, Giám đốc UKSIC, nói: "Những đứa trẻ không phải lúc nào cũng nhận thức được mức độ nghiêm trọng của những gì chúng đang làm, song những kiểu hành vi có hại này cần được lường trước khi các công nghệ mới, như trình tạo hình ảnh AI, trở nên dễ tiếp cận hơn với công chúng.

Dù số lượng vụ việc hiện còn ít và chúng ta đang ở giai đoạn đầu tiên của vấn đề nhưng cần thấy các bước được thực hiện ngay bây giờ, trước khi các trường học trở nên quá tải sự việc và vấn đề trở nên lớn hơn".

Bài liên quan
Chủ sở hữu TikTok phản hồi cáo buộc lén lút dùng công nghệ OpenAI phát triển mô hình AI riêng
ByteDance cho biết việc sử dụng công nghệ từ OpenAI để hỗ trợ phát triển mô hình trí tuệ nhân tạo (AI) riêng tuân thủ các điều khoản dịch vụ của công ty Mỹ, bác bỏ cáo buộc cho rằng họ dùng công nghệ này để xây dựng một dịch vụ cạnh tranh.

(0) Bình luận
Nổi bật Một thế giới
Temu, Shein... 'đổ bộ' Việt Nam, chuyển đổi số cấp thiết hơn bao giờ hết
13 giờ trước Khoa học - công nghệ
Chuyển đổi số trong linh vực bán buôn, bán lẻ đang cấp thiết hơn bao giờ hết khi các sàn thương mại điện tử như Temu, Shein... "đổ bộ" thị trường Việt Nam.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Các nhà nghiên cứu phát hiện bộ dữ liệu AI lớn chứa hơn 1.000 ảnh lạm dụng tình dục trẻ em