Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Meta thu thập bài đăng Facebook, Instagram của hàng tỉ người dùng để đào tạo AI

Sơn Vân • 23:17 12/09/2024

Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram trưởng thành đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình trí tuệ nhân tạo (AI) của họ.

Trang ABC News (Úc) đưa tin Melinda Claybaugh, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms, ban đầu bác bỏ các tuyên bố về việc sử dụng dữ liệu người dùng từ năm 2007 để đào tạo AI trong một cuộc điều tra của chính phủ nước này trước khi thừa nhận sau khi bị chất vấn thêm.

"Sự thật là trừ khi bạn đã đặt các bài đăng đó ở chế độ riêng tư kể từ năm 2007, Meta đã quyết định thu thập tất cả ảnh và văn bản từ mọi bài đăng công khai trên Instagram hoặc Facebook...", Thượng nghị sĩ David Shoebridge thuộc đảng Xanh nhấn mạnh trong cuộc điều tra.

David Shoebridge hỏi: "Đó là thực tế, phải không?". "Đúng vậy", Melinda Claybaugh trả lời.

Trung tâm quyền riêng tư và bài đăng trên blog của Meta Platforms thừa nhận việc thu thập bài đăng và bình luận công khai từ Facebook, Instagram để đào tạo AI tạo sinh: “Chúng tôi sử dụng bài đăng và bình luận công khai trên Facebook và Instagram để đào tạo các mô hình AI tạo sinh cho những tính năng này và cho cộng đồng nguồn mở. Chúng tôi không sử dụng các bài đăng hoặc bình luận với đối tượng khác ngoài chế độ công khai cho mục đích này”.

Thế nhưng, công ty đã mơ hồ về cách sử dụng dữ liệu, khi nào bắt đầu thu thập và phạm vi thực hiện việc này đến đâu.

Khi được trang The New York Times hỏi vào tháng 6, Meta Platforms không trả lời, ngoài việc xác nhận rằng việc đặt bài đăng thành bất cứ thứ gì khác ngoài chế độ công khai sẽ ngăn chặn việc thu thập dữ liệu trong tương lai. Tất nhiên, điều đó sẽ không xóa dữ liệu đã bị Meta Platforms thu thập. Những người đăng bài trên Facebook và Instagram từ năm 2007 trở lại đây sẽ không biết ảnh và bài của họ sẽ được Meta Platforms sử dụng theo cách này.

Melinda Claybaugh cho biết Meta Platforms không thu thập dữ liệu từ người dùng dưới 18 tuổi. Khi Thượng nghị sĩ Tony Sheldon thuộc đảng Lao động (Úc) hỏi liệu Meta Platforms có thu thập ảnh đăng công khai về con cái ông trên tài khoản cá nhân của ông không, Melinda Claybaugh xác nhận là “có”. Thế nhưng, Giám đốc Quyền riêng tư toàn cầu của Meta Platforms không làm rõ liệu công ty có thu thập dữ liệu từ các tài khoản được tạo khi người dùng vẫn còn là trẻ em hay không.

Người dùng ở EU có quyền lựa chọn không tham gia việc thu thập dữ liệu của họ để đào tạo AI nhờ vào các quy định bảo vệ quyền riêng tư tại địa phương. Meta Platforms gần đây bị cấm sử dụng dữ liệu cá nhân của người Brazil để đào tạo AI, nhưng hàng tỉ người dùng Facebook và Instagram ở các khu vực khác không thể chọn không tham gia nếu muốn giữ bài đăng công khai.

Melinda Claybaugh không thể nói liệu người dùng Úc (hoặc bất kỳ ai khác) có được lựa chọn không tham gia việc thu thập dữ liệu của họ trong tương lai hay không. Ông lập luận rằng tùy chọn này được cung cấp cho người dùng ở EU do không chắc chắn về bối cảnh pháp lý của nó.

"Meta Platforms nói rõ hôm nay rằng nếu Úc có những luật tương tự, dữ liệu của người Úc cũng sẽ được bảo vệ. Việc chính phủ không hành động về quyền riêng tư đồng nghĩa các công ty như Meta đang tiếp tục kiếm tiền và khai thác hình ảnh, video của trẻ em trên Facebook", Thượng nghị sĩ David Shoebridge nói với ABC News.

meta-thu-thap-bai-dang-facebook-instagram-cong-khai-cua-hang-ti-nguoi-dung-de-dao-tao-ai.jpg — Meta Platforms thừa nhận tất cả văn bản và ảnh mà hàng tỉ người dùng Facebook, Instagram đã đăng công khai kể từ năm 2007 đã được đưa vào các mô hình AI của họ - Ảnh: Getty Images

Các bot mới của Meta thu thập dữ liệu web lén lút để đào tạo AI, chỉ 1 đến 1,5% trang hàng đầu chặn được

Meta Platforms gần đây đã tung ra các bot mới có thể thu thập dữ liệu web cho mô hình AI và sản phẩm liên quan mà ít trang chặn được.

Các bot mới này có các tính năng khiến chủ sở hữu trang web khó chặn nội dung của họ bị sao chép và thu thập.

Theo Meta Platforms, bot Meta-ExternalAgent "dành cho các trường hợp sử dụng như đào tạo các mô hình AI hoặc cải thiện sản phẩm bằng cách lập chỉ mục nội dung trực tiếp".

Có tên Meta-ExternalFetcher, bot thứ hai liên quan đến các dịch vụ trợ lý AI của Meta Platforms và thu thập liên kết web để hỗ trợ những chức năng sản phẩm cụ thể.

Hai bot này lần đầu tiên xuất hiện vào khoảng tháng 7, theo trang web lưu trữ của Meta Platforms được phân tích bởi Originality.ai - công ty khởi nghiệp chuyên phát hiện nội dung AI.

Originality.ai là nền tảng chuyên cung cấp công cụ phát hiện nội dung sao chép và trùng lặp trực tuyến. Công ty tập trung vào việc giúp các nhà xuất bản và doanh nghiệp bảo vệ nội dung của họ khỏi bị sao chép hoặc sử dụng trái phép.

Các công ty khởi nghiệp và gã khổng lồ công nghệ đang chạy đua để xây dựng mô hình AI mạnh mẽ nhất. Một thành phần quan trọng là dữ liệu đào tạo chất lượng cao. Một trong những cách chính để thu thập dữ liệu này là gửi các bot lên web để sao chép và thu thập nội dung trực tuyến. Google, OpenAI, Anthropic và một số công ty AI khác đều có những bot này.

Nếu muốn chặn những bot như vậy, chủ sở hữu nội dung sử dụng một quy tắc đã được thiết lập sẵn có tên robots.txt. Quy tắc này ngăn chặn việc tự động thu thập dữ liệu từ trang web. Đây là đoạn mã đã được sử dụng từ cuối những năm 1990 và được chấp nhận rộng rãi như một trong những quy tắc không chính thức hỗ trợ web.

Tuy nhiên, nhu cầu về dữ liệu đào tạo AI đã làm suy yếu hệ thống này. Vào tháng 6, OpenAI và Anthropic đã bị phát hiện qua mặt hoặc lách robots.txt.

Meta lách quy tắc

Meta Platforms cũng có thể đang cố gắng qua mặt robots.txt theo những cách tinh vi. Công ty mẹ Facebook thông báo rằng bot Meta-ExternalFetcher "có thể qua mặt các quy tắc robots.txt".

Trong khi đó, bot Meta-ExternalAgent thực hiện đến hai chức năng, điều khá bất thường. Một là thu thập dữ liệu đào tạo AI, trong khi chức năng còn lại là lập chỉ mục nội dung.

Chủ sở hữu trang web có thể muốn chặn Meta Platforms khỏi việc thu thập dữ liệu để đào tạo mô hình AI, nhưng cũng muốn gã khổng lồ công nghệ Mỹ lập chỉ mục trang web (còn gọi là indexing) của họ để nhiều người dùng truy cập hơn.

Việc kết hợp cả hai chức năng trong một bot duy nhất khiến việc chặn trở nên khó khăn hơn. Chỉ có 1,5% các trang web hàng đầu chặn được bot Meta-ExternalAgent, theo Originality.ai. Con số này ít hơn nhiều so với FacebookBot, trình thu thập dữ liệu Meta Platforms trước đó.

FacebookBot thu thập dữ liệu trực tuyến trong nhiều năm để đào tạo các mô hình ngôn ngữ lớn và công nghệ nhận dạng giọng nói AI của Meta Platforms. Theo Originality.ai, bot này bị gần 10% các trang web hàng đầu chặn, gồm cả Twitter và Yahoo.

Theo Originality.ai, bot mới khác là Meta-ExternalFetcher đang bị chưa đến 1% các trang web hàng đầu chặn.

Jon Gillham, Giám đốc điều hành Originality.ai nói: "Các công ty nên cung cấp khả năng cho trang web chặn dữ liệu của họ khỏi việc bị thu thập và sử dụng để đào tạo AI mà không làm giảm khả năng hiển thị nội dung trang web trong sản phẩm của họ".

Người phát ngôn của Meta Platforms phản bác lại điều này bằng cách nói rằng công ty đang cố gắng "giúp các nhà xuất bản dễ dàng chỉ ra sở thích của họ hơn".

"Giống như các công ty khác, chúng tôi đào tạo các mô hình AI tạo sinh của mình trên nội dung có sẵn công khai trực tuyến. Chúng tôi nhận ra rằng một số nhà xuất bản và chủ sở hữu tên miền web muốn có các tùy chọn khi nói đến trang web và AI tạo sinh của họ", người phát ngôn Meta Platforms viết trong email gửi cho trang Insider.

Meta Platforms có nhiều bot thu thập dữ liệu web để tránh "gói gọn tất cả trường hợp sử dụng dưới một tác nhân duy nhất, cung cấp nhiều sự linh hoạt hơn cho các nhà xuất bản web", người phát ngôn nói thêm.

Chủ sở hữu trang web có thể tìm thông tin về cách chặn bot mới của Meta Platforms tại đây.

Bài liên quan

Meta khai tử công cụ phân tích vô giá giúp hiểu được cách thông tin lan truyền trên Facebook, Instagram

Meta khai tử Crowdtangle, công cụ phân tích vô giá, vì những gì công ty này cho rằng là bất tiện. Nhiều người sẽ còn khó hiểu hơn nữa những gì diễn ra trên Facebook và Instagram sắp tới.

Đọc tiếp

Apple đang phát triển sản phẩm mà Meta của Mark Zuckerberg thất bại

Meta Platforms chưa khai thác hết tiềm năng của AI nhưng đã gặp rắc rối với cơ quan pháp lý

Tạp chí Time vinh danh Giám đốc Cục Quản lý Không gian mạng Trung Quốc cùng CEO của ByteDance, Google, Meta

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Doanh nghiệp cần làm chủ công nghệ số, ứng dụng AI vào hoạt động sản xuất

19 giờ trước Khoa học - công nghệ

Đại học Quốc gia TP.HCM vừa tổ chức hội nghị trao đổi, chia sẻ kinh nghiệm của doanh nghiệp khoa học công nghệ và trường đại học về triển khai Nghị quyết số 57-NQ/TW của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia.

Apple nghiên cứu biến đồng hồ thông minh thành thiết bị AI có camera, mẫu Watch SE bằng nhựa gặp vấn đề

Apple đang khám phá ý tưởng tích hợp camera và các tính năng trí tuệ nhân tạo (AI) vào đồng...
Hà Nội triển khai đợt cao điểm tiêm vắc xin phòng sởi cho trẻ từ 6 đến dưới 9 tháng tuổi

TP.Hà Nội đang triển khai chiến dịch tiêm vắc xin phòng sởi cho trẻ từ 6 đến dưới 9 tháng tuổi.
Chuyên gia: ChatGPT tạo phần mềm độc hại đủ mạnh để xâm nhập trình quản lý mật khẩu Google Chrome

Các nhà nghiên cứu an ninh mạng phát hiện ra rằng việc vượt qua các tính năng an toàn ngăn...

Đừng bỏ lỡ

Người phụ nữ cưỡi vali chạy trên đường ở TP.HCM khai gì?

8 giờ trước Theo dòng thời sự

Ngày 23.3, Phòng CSGT, Công an TP.HCM cùng tổ CSGT quận 1 và Công an phường Bến Nghé đã ra quyết định xử phạt hành chính bà T.T.N.T với số tiền 225.000 đồng về hành vi sử dụng bàn trượt đi trên phần đường xe chạy.
TP.HCM: Mở rộng đường Nguyễn Hữu Thọ lên 10 làn xe

9 giờ trước Hạ tầng và bất động sản

Ngày 23.3, Sở Giao thông công chánh TP.HCM cho biết đang gấp rút hoàn thiện báo cáo nghiên cứu khả thi để khởi công mở rộng đường trục Bắc - Nam (đường Nguyễn Hữu Thọ hiện hữu), đoạn từ đường Nguyễn Văn Linh đến cao tốc Bến Lức - Long Thành.
'Bóng ma' dưới tuyết: Cuộc đối đầu lặng lẽ giữa đặc nhiệm Ukraine và chiến binh Triều Tiên tại Kursk

11 giờ trước Hồ sơ

Gió lạnh như cắt da thổi qua những cánh rừng phủ tuyết trắng ở Kursk, một vùng đất biên giới phía tây nước Nga, nơi yên bình chỉ là ảo ảnh.
ChatGPT và các chatbot AI trở thành cứu tinh sức khỏe tinh thần cho giới trẻ Singapore

11 giờ trước Nhịp đập khoa học

Gần 1/3 số người trẻ tuổi Singapore từ 15 đến 35 tuổi báo cáo có triệu chứng trầm cảm, lo âu hoặc căng thẳng. Nhiều người trong số họ đang tìm đến các chatbot trí tuệ nhân tạo (AI) như ChatGPT, Wysa để nhận hỗ trợ cảm xúc.
Bình Phước đã chuyển mình mạnh mẽ

12 giờ trước Sự kiện

Ngày 23.3, tại TP.Đồng Xoài diễn ra lễ kỷ niệm 50 năm ngày giải phóng tỉnh Bình Phước (23.3.1975 - 23.3.2025) và đón nhận Huân chương Lao động hạng Nhất.

Mới nhất

Apple nghiên cứu biến đồng hồ thông minh thành thiết bị AI có camera, mẫu Watch SE bằng nhựa gặp vấn đề

8 giờ trước Thế giới số

Apple đang khám phá ý tưởng tích hợp camera và các tính năng trí tuệ nhân tạo (AI) vào đồng hồ thông minh của mình, đưa công ty tiến sâu hơn vào thị trường thiết bị đeo AI.
Hà Nội triển khai đợt cao điểm tiêm vắc xin phòng sởi cho trẻ từ 6 đến dưới 9 tháng tuổi

10 giờ trước Thông tin Y học

TP.Hà Nội đang triển khai chiến dịch tiêm vắc xin phòng sởi cho trẻ từ 6 đến dưới 9 tháng tuổi.
Công cụ AI tạo hình ảnh siêu nhanh

15 giờ trước Khoa học - công nghệ

Cây bút công nghệ Nadeem Sarwar của trang Digital Trends giới thiệu công cụ trí tuệ nhân tạo (AI) mang tên HART do hãng chip Nvidia hợp tác với Viện Công nghệ Massachusetts cùng Đại học Thanh Hoa phát triển, sở hữu khả năng tạo hình ảnh siêu nhanh với yêu cầu tính toán thấp đi đáng kể.
EVNSPC triển khai nhiều hoạt động hưởng ứng Chiến dịch Giờ Trái đất 2025

16 giờ trước Sự kiện

Tối 22.3.2025, Tổng công ty Điện lực miền Nam (EVNSPC) phối hợp với tỉnh Bình Phước tổ chức chương trình "Toàn dân tiết kiệm năng lượng hưởng ứng Giờ Trái đất năm 2025", với thông điệp "Chuyển dịch xanh, Tương lai xanh".
Chuyên gia: ChatGPT tạo phần mềm độc hại đủ mạnh để xâm nhập trình quản lý mật khẩu Google Chrome

16 giờ trước Nhịp đập khoa học

Các nhà nghiên cứu an ninh mạng phát hiện ra rằng việc vượt qua các tính năng an toàn ngăn ChatGPT và các chatbot trí tuệ nhân tạo (AI) khác viết phần mềm độc hại dễ hơn bạn nghĩ: Chỉ cần chơi trò giả vờ.