Hotline quảng cáo: 076 4575985 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Meta thu thập bài đăng Facebook, Instagram của hàng tỉ người dùng để đào tạo AI

Sơn Vân • 23:17 12/09/2024

Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram trưởng thành đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình trí tuệ nhân tạo (AI) của họ.

Trang ABC News (Úc) đưa tin Melinda Claybaugh, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms, ban đầu bác bỏ các tuyên bố về việc sử dụng dữ liệu người dùng từ năm 2007 để đào tạo AI trong một cuộc điều tra của chính phủ nước này trước khi thừa nhận sau khi bị chất vấn thêm.

"Sự thật là trừ khi bạn đã đặt các bài đăng đó ở chế độ riêng tư kể từ năm 2007, Meta đã quyết định thu thập tất cả ảnh và văn bản từ mọi bài đăng công khai trên Instagram hoặc Facebook...", Thượng nghị sĩ David Shoebridge thuộc đảng Xanh nhấn mạnh trong cuộc điều tra.

David Shoebridge hỏi: "Đó là thực tế, phải không?". "Đúng vậy", Melinda Claybaugh trả lời.

Trung tâm quyền riêng tư và bài đăng trên blog của Meta Platforms thừa nhận việc thu thập bài đăng và bình luận công khai từ Facebook, Instagram để đào tạo AI tạo sinh: “Chúng tôi sử dụng bài đăng và bình luận công khai trên Facebook và Instagram để đào tạo các mô hình AI tạo sinh cho những tính năng này và cho cộng đồng nguồn mở. Chúng tôi không sử dụng các bài đăng hoặc bình luận với đối tượng khác ngoài chế độ công khai cho mục đích này”.

Thế nhưng, công ty đã mơ hồ về cách sử dụng dữ liệu, khi nào bắt đầu thu thập và phạm vi thực hiện việc này đến đâu.

Khi được trang The New York Times hỏi vào tháng 6, Meta Platforms không trả lời, ngoài việc xác nhận rằng việc đặt bài đăng thành bất cứ thứ gì khác ngoài chế độ công khai sẽ ngăn chặn việc thu thập dữ liệu trong tương lai. Tất nhiên, điều đó sẽ không xóa dữ liệu đã bị Meta Platforms thu thập. Những người đăng bài trên Facebook và Instagram từ năm 2007 trở lại đây sẽ không biết ảnh và bài của họ sẽ được Meta Platforms sử dụng theo cách này.

Melinda Claybaugh cho biết Meta Platforms không thu thập dữ liệu từ người dùng dưới 18 tuổi. Khi Thượng nghị sĩ Tony Sheldon thuộc đảng Lao động (Úc) hỏi liệu Meta Platforms có thu thập ảnh đăng công khai về con cái ông trên tài khoản cá nhân của ông không, Melinda Claybaugh xác nhận là “có”. Thế nhưng, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms không làm rõ liệu công ty có thu thập dữ liệu từ các tài khoản được tạo khi người dùng vẫn còn là trẻ em hay không.

Người dùng ở EU có quyền lựa chọn không tham gia việc thu thập dữ liệu của họ để đào tạo AI nhờ vào các quy định bảo vệ quyền riêng tư tại địa phương. Meta Platforms gần đây bị cấm sử dụng dữ liệu cá nhân của người Brazil để đào tạo AI, nhưng hàng tỉ người dùng Facebook và Instagram ở các khu vực khác không thể chọn không tham gia nếu muốn giữ bài đăng công khai.

Melinda Claybaugh không thể nói liệu người dùng Úc (hoặc bất kỳ ai khác) có được lựa chọn không tham gia việc thu thập dữ liệu của họ trong tương lai hay không. Ông lập luận rằng tùy chọn này được cung cấp cho người dùng ở EU do không chắc chắn về bối cảnh pháp lý của nó.

"Meta Platforms nói rõ hôm nay rằng nếu Úc có những luật tương tự, dữ liệu của người Úc cũng sẽ được bảo vệ. Việc chính phủ không hành động về quyền riêng tư đồng nghĩa các công ty như Meta đang tiếp tục kiếm tiền và khai thác hình ảnh, video của trẻ em trên Facebook", Thượng nghị sĩ David Shoebridge nói với ABC News.

meta-thu-thap-bai-dang-facebook-instagram-cong-khai-cua-hang-ti-nguoi-dung-de-dao-tao-ai.jpg — Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình AI của họ - Ảnh: Getty Images

Các bot mới của Meta thu thập dữ liệu web lén lút để đào tạo AI, chỉ 1 đến 1,5% trang hàng đầu chặn được

Meta Platforms gần đây đã tung ra các bot mới có thể thu thập dữ liệu web cho mô hình AI và sản phẩm liên quan mà ít trang chặn được.

Các bot mới này có các tính năng khiến chủ sở hữu trang web khó chặn nội dung của họ bị sao chép và thu thập.

Theo Meta Platforms, bot Meta-ExternalAgent "dành cho các trường hợp sử dụng như đào tạo các mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp".

Có tên Meta-ExternalFetcher, bot thứ hai liên quan đến các dịch vụ trợ lý AI của Meta Platforms và thu thập liên kết web để hỗ trợ những chức năng sản phẩm cụ thể.

Hai bot này lần đầu tiên xuất hiện vào khoảng tháng 7, theo trang web lưu trữ của Meta Platforms được phân tích bởi Originality.ai - công ty khởi nghiệp chuyên phát hiện nội dung AI.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép.

Các công ty khởi nghiệp và gã khổng lồ công nghệ đang chạy đua để xây dựng mô hình AI mạnh mẽ nhất. Một thành phần quan trọng là dữ liệu đào tạo chất lượng cao. Một trong những cách chính để thu thập dữ liệu này là gửi các bot lên web để sao chép và thu thập nội dung trực tuyến. Google, OpenAI, Anthropic và một số công ty AI khác đều có những bot này.

Nếu muốn chặn những bot như vậy, chủ sở hữu nội dung sử dụng một quy tắc đã được thiết lập sẵn có tên robots.txt. Quy tắc này ngăn chặn việc tự động thu thập dữ liệu từ trang web. Đây là đoạn mã đã được sử dụng từ cuối những năm 1990 và được chấp nhận rộng rãi như một trong những quy tắc không chính thức hỗ trợ web.

Tuy nhiên, nhu cầu về dữ liệu đào tạo AI đã làm suy yếu hệ thống này. Vào tháng 6, OpenAI và Anthropic đã bị phát hiện qua mặt hoặc lách robots.txt.

Meta lách quy tắc

Meta Platforms cũng có thể đang cố gắng qua mặt robots.txt theo những cách tinh vi. Công ty mẹ Facebook thông báo rằng bot Meta-ExternalFetcher "có thể qua mặt các quy tắc robots.txt".

Trong khi đó, bot Meta-ExternalAgent thực hiện đến hai chức năng, điều khá bất thường. Một là thu thập dữ liệu đào tạo AI, trong khi chức năng còn lại là lập chỉ mục nội dung.

Chủ sở hữu trang web có thể muốn chặn Meta Platforms khỏi việc thu thập dữ liệu để đào tạo mô hình AI, nhưng cũng muốn gã khổng lồ công nghệ Mỹ lập chỉ mục trang web (còn gọi là indexing) của họ để nhiều người dùng truy cập hơn.

Việc kết hợp cả hai chức năng trong một bot duy nhất khiến việc chặn trở nên khó khăn hơn. Chỉ có 1,5% các trang web hàng đầu chặn được bot Meta-ExternalAgent, theo Originality.ai. Con số này ít hơn nhiều so với FacebookBot, trình thu thập dữ liệu Meta Platforms trước đó.

FacebookBot thu thập dữ liệu trực tuyến trong nhiều năm để đào tạo các mô hình ngôn ngữ lớn và công nghệ nhận dạng giọng nói AI của Meta Platforms. Theo Originality.ai, bot này bị gần 10% các trang web hàng đầu chặn, gồm cả Twitter và Yahoo.

Theo Originality.ai, bot mới khác là Meta-ExternalFetcher đang bị chưa đến 1% các trang web hàng đầu chặn.

Jon Gillham, Giám đốc điều hành Originality.ai nói: "Các công ty nên cung cấp khả năng cho trang web chặn dữ liệu của họ khỏi việc bị thu thập và sử dụng để đào tạo AI mà không làm giảm khả năng hiển thị nội dung trang web trong sản phẩm của họ".

Người phát ngôn của Meta Platforms phản bác lại điều này bằng cách nói rằng công ty đang cố gắng "giúp các nhà xuất bản dễ dàng chỉ ra sở thích của họ hơn".

"Giống như các công ty khác, chúng tôi đào tạo các mô hình AI tạo sinh của mình trên nội dung có sẵn công khai trực tuyến. Chúng tôi nhận ra rằng một số nhà xuất bản và chủ sở hữu tên miền web muốn có các tùy chọn khi nói đến trang web và AI tạo sinh của họ", người phát ngôn Meta Platforms viết trong email gửi cho trang Insider.

Meta Platforms có nhiều bot thu thập dữ liệu web để tránh "gói gọn tất cả trường hợp sử dụng dưới một tác nhân duy nhất, cung cấp nhiều sự linh hoạt hơn cho các nhà xuất bản web", người phát ngôn nói thêm.

Chủ sở hữu trang web có thể tìm thông tin về cách chặn bot mới của Meta Platforms tại đây.

Bài liên quan

Meta khai tử công cụ phân tích vô giá giúp hiểu được cách thông tin lan truyền trên Facebook, Instagram

Meta khai tử Crowdtangle, công cụ phân tích vô giá, vì những gì công ty này cho rằng là bất tiện. Nhiều người sẽ còn khó hiểu hơn nữa những gì diễn ra trên Facebook và Instagram sắp tới.

Đọc tiếp

Apple đang phát triển sản phẩm mà Meta của Mark Zuckerberg thất bại

Meta Platforms chưa khai thác hết tiềm năng của AI nhưng đã gặp rắc rối với cơ quan pháp lý

Tạp chí Time vinh danh Giám đốc Cục Quản lý Không gian mạng Trung Quốc cùng CEO của ByteDance, Google, Meta

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư Tô Lâm đi Metro số 1 TP.HCM

5 giờ trước Theo dòng thời sự

Trưa 22.2, lãnh đạo Công ty TNHH MTV Đường sắt đô thị số 1 (HURC1) cho biết, đơn vị vừa vinh dự được tiếp đón Tổng Bí thư Tô Lâm cùng đoàn lãnh đạo cấp cao của Thủ tướng Lào, các lãnh đạo TP.HCM sáng nay tại tuyến metro số 1 Bến Thành - Suối Tiên.

TP.HCM: Người nhận hỗ trợ 2,7 tỉ đồng do sắp xếp bộ máy phải đáp ứng điều kiện gì?

Kỳ họp lần thứ 21 (kỳ họp chuyên đề), HĐND TP.HCM chiều 20.2 đã thông qua Nghị quyết về chế...
Kiện toàn Ban Chỉ đạo xây dựng Luật KH-CN (sửa đổi): Phó thủ tướng Bùi Thanh Sơn làm trưởng ban

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Quyết định số 380/QĐ-TTg ngày 20.2.2025 về việc...
Thủ tướng yêu cầu khắc phục hậu quả vụ TNGT đặc biệt nghiêm trọng tại Sơn La

Ngày 22.2, Thủ tướng Phạm Minh Chính đã có Công điện chỉ đạo khắc phục hậu quả vụ tai nạn giao...

Đừng bỏ lỡ

Những khác biệt chính của iPhone 16e và iPhone 16: Nên chọn máy nào?

29 phút trước Thế giới số

iPhone 16e là lựa chọn kinh tế hơn iPhone 16, nhưng đi kèm với một số hạn chế nhất định.
Ai mì Quảng không - ca khúc hay nhất về món ăn của một vùng quê

1 giờ trước Văn hóa

Có thể nói ca khúc Ai mì quảng không của cố nhạc sĩ Trần Phú Thiên là bài hát hay nhất viết về ẩm thực vùng miền.
Kiểm định cầu Đồng Nai, hạn chế lưu thông

2 giờ trước Hạ tầng và bất động sản

Ngày 22.2, Khu Quản lý đường bộ IV (Cục Đường bộ Việt Nam) cho biết đang triển khai công tác kiểm định cầu Đồng Nai cũ theo hướng từ TP.HCM đi Đồng Nai.
'Áo giáp' cho tài xế công nghệ

3 giờ trước Góc bình luận

Nhiều vụ việc xâm phạm sức khỏe, tính mạng và tài sản của shipper, tài xế công nghệ trong thời gian gần đây cho thấy dường như lái xe công nghệ cũng là “nghề nguy hiểm”, nhất là khi nữ giới cầm lái.
Sôi nổi giải giao lưu Pickleball Bộ đội Biên phòng tỉnh An Giang

4 giờ trước Sự kiện

Giải giao lưu pickleball chào mừng kỷ niệm 66 năm ngày truyền thống Bộ đội Biên phòng Việt Nam (3.3.1959 – 3.3.2025) và 36 năm ngày Biên phòng toàn dân (3.3.1989 – 3.3.2025), do Bộ đội Biên phòng tỉnh An Giang tổ chức thu hút đông đảo các vận động viên đến từ cơ quan Bộ Chỉ huy và các đơn vị cơ sở tham gia.

Mới nhất

TP.HCM: Người nhận hỗ trợ 2,7 tỉ đồng do sắp xếp bộ máy phải đáp ứng điều kiện gì?

2 giờ trước Theo dòng thời sự

Kỳ họp lần thứ 21 (kỳ họp chuyên đề), HĐND TP.HCM chiều 20.2 đã thông qua Nghị quyết về chế độ hỗ trợ thêm đối với cán bộ, công chức, viên chức, người lao động khi thực hiện sắp xếp tổ chức bộ máy.
Kiện toàn Ban Chỉ đạo xây dựng Luật KH-CN (sửa đổi): Phó thủ tướng Bùi Thanh Sơn làm trưởng ban

4 giờ trước Theo dòng thời sự

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Quyết định số 380/QĐ-TTg ngày 20.2.2025 về việc kiện toàn Ban Chỉ đạo xây dựng Luật Khoa học và Công nghệ (KH-CN) (sửa đổi).
Tổng Bí thư Tô Lâm đi Metro số 1 TP.HCM

5 giờ trước Theo dòng thời sự

Trưa 22.2, lãnh đạo Công ty TNHH MTV Đường sắt đô thị số 1 (HURC1) cho biết, đơn vị vừa vinh dự được tiếp đón Tổng Bí thư Tô Lâm cùng đoàn lãnh đạo cấp cao của Thủ tướng Lào, các lãnh đạo TP.HCM sáng nay tại tuyến metro số 1 Bến Thành - Suối Tiên.
Thủ tướng yêu cầu khắc phục hậu quả vụ TNGT đặc biệt nghiêm trọng tại Sơn La

6 giờ trước Theo dòng thời sự

Ngày 22.2, Thủ tướng Phạm Minh Chính đã có Công điện chỉ đạo khắc phục hậu quả vụ tai nạn giao thông (TNGT) đặc biệt nghiêm trọng tại huyện Yên Châu, tỉnh Sơn La.
Bắt khẩn cấp tài xế xe khách vụ tai nạn 6 người chết ở Sơn La

7 giờ trước Theo dòng thời sự

Công an tỉnh Sơn La khởi tố vụ án, bắt người bị giữ trong trường hợp khẩn cấp với tài xế ô tô khách gây tai nạn làm 6 người tử vong trên quốc lộ 6.