Chatbot Meta AI được đào tạo dựa vào các bài đăng công khai trên Facebook, Instagram

AI - Ngày đăng : 10:45, 29/09/2023

Meta Platforms đã sử dụng các bài đăng công khai trên Facebook và Instagram để đào tạo trợ lý ảo Meta AI mới, nhưng loại trừ bài đăng chỉ được chia sẻ với gia đình và bạn bè nhằm nỗ lực tôn trọng quyền riêng tư của người dùng.

Nick Clegg, Chủ tịch phụ trách các vấn đề toàn cầu của Meta Platforms, tiết lộ thông tin này với hãng tin Reuters trong cuộc phỏng vấn.

Meta Platforms cũng không sử dụng các cuộc trò chuyện riêng tư trên dịch vụ nhắn tin của mình như Messenger, WhatsApp làm dữ liệu đào tạo Meta AI. Hơn nữa, công ty thực hiện các bước để lọc chi tiết riêng tư từ các bộ dữ liệu công khai được sử dụng để đào tạo chatbot trí tuê nhân tạo (AI) này, Nick Clegg nói.

“Chúng tôi đã cố gắng loại trừ các tập dữ liệu có nhiều thông tin cá nhân”, Nick Clegg cho biết và nói thêm rằng phần lớn dữ liệu mà Meta Platforms sử dụng để đào tạo Meta AI đã được công khai.

Ông trích dẫn LinkedIn là một ví dụ về trang web có nội dung mà Meta Platforms cố tình chọn không sử dụng vì lo ngại về quyền riêng tư.

Nhận xét của Nick Clegg được đưa ra khi các hãng công nghệ bao gồm Meta Platforms, OpenAI và Google bị chỉ trích vì sử dụng thông tin thu thập được từ internet không được phép để đào tạo các mô hình AI của họ, vốn sử dụng lượng dữ liệu khổng lồ để tóm tắt thông tin và tạo ra hình ảnh.

Các công ty đang xem xét cách xử lý các tài liệu riêng tư hoặc có bản quyền được thu thập trong quá trình đào tạo mà hệ thống AI của họ có thể sao chép, đồng thời phải đối mặt với các vụ kiện từ tác giả cáo buộc họ vi phạm bản quyền.

Meta AI là sản phẩm quan trọng nhất trong số các công cụ AI hướng tới người tiêu dùng đầu tiên của Meta Platforms được Giám đốc điều hành Mark Zuckerberg công bố hôm 28.9 tại hội nghị sản phẩm thường niên Meta Connect. Chủ đề chính của các sự kiện năm nay là AI, không giống các hội nghị trước đây tập trung vào thực tế ảo và thực tế tăng cường.

Meta Platforms đã tạo ra trợ lý AI bằng cách sử dụng mô hình tùy chỉnh dựa trên Llama 2. Đây là mô hình ngôn ngữ lớn mạnh mẽ mà công ty phát hành cho việc sử dụng thương mại công khai vào tháng 7.

Meta AI sẽ có thể tạo ra văn bản, âm thanh và hình ảnh, đồng thời sẽ có quyền truy cập vào thông tin thời gian thực thông qua quan hệ đối tác với công cụ tìm kiếm Bing của Microsoft.

Meta AI sẽ được tích hợp vào kính thông minh Ray-Ban thế hệ mới với vai trò trợ lý, bắt đầu bằng việc triển khai phiên bản beta tại Mỹ. Một bản cập nhật phần mềm được lên kế hoạch cho năm tới sẽ cung cấp cho trợ lý Meta AI khả năng xác định các địa điểm và vật thể mà mọi người đang nhìn thấy cũng như thực hiện dịch ngôn ngữ.

Mark Zuckerberg, Giám đốc điều hành Meta Platforms, cho biết kính thông minh Ray-Ban sẽ bắt đầu xuất xưởng vào ngày 17.10 với giá 299 USD. Thiết bị này có khả năng phát trực tiếp những gì người dùng đang nhìn thấy lên Facebook và Instagram, một tiến bộ so với khả năng chụp ảnh của thế hệ trước.

chatbot-meta-ai-duoc-dao-tao-dua-tren-cac-bai-dang-cong-khai-tren-facebook-instagram.jpg — Mark Zuckerberg phát biểu tại sự kiện Meta Connect tại trụ sở chính của công ty ở thành phố Menlo Park, bang California, Mỹ - Ảnh: Reuters

Nick Clegg cho biết các bài đăng công khai trên Facebook và Instagram được sử dụng để đào tạo Meta AI gồm cả văn bản và hình ảnh. Ông nói Meta Platforms cũng áp đặt các hạn chế về an toàn với nội dung mà Meta AI có thể tạo ra, chẳng hạn như lệnh cấm tạo hình ảnh chân thực của các nhân vật của công chúng.

Về tài liệu có bản quyền, Nick Clegg dự đoán rằng "sẽ có một lượng lớn vụ kiện về vấn đề liệu nội dung sáng tạo có được bảo vệ bởi nguyên tắc sử dụng hợp lý hiện có hay không". Nguyên tắc này cho phép sử dụng giới hạn các tác phẩm được bảo vệ cho mục đích như bình luận, nghiên cứu và châm biếm.

Nick Clegg nói: “Chúng tôi nghĩ rằng có, nhưng tôi rất nghi ngờ rằng điều đó sẽ được xem xét trong các vụ kiện”.

Một số công ty sử dụng các công cụ tạo hình ảnh có thể tạo ra hình nhân vật biểu tượng như Mickey Mouse một cách dễ dàng, trong khi những hãng khác đã trả tiền cho nội dung hoặc cố tình tránh đưa chúng vào dữ liệu đào tạo

Ví dụ, OpenAI đã ký hợp đồng 6 năm với nhà cung cấp nội dung Shutterstock vào mùa hè này để sử dụng thư viện hình ảnh, video và âm nhạc của công ty này cho mục đích đào tạo AI.

Khi được hỏi liệu Meta Platforms có thực hiện bất kỳ bước nào như vậy để tránh sao chép hình ảnh có bản quyền hay không, người phát ngôn công ty chỉ ra các điều khoản dịch vụ mới cấm người dùng tạo nội dung vi phạm quyền riêng tư và quyền sở hữu trí tuệ.

Trong sự kiện Connnect, Meta Platforms cũng thông báo rằng đang xây dựng một nền tảng mà các nhà phát triển cũng như người bình thường có thể sử dụng để tạo ra các bot AI tùy chỉnh của riêng họ. Những bot này sẽ có hồ sơ trên Instagram, Facebook và cuối cùng xuất hiện dưới dạng hình đại diện trong metaverse.

Để chứng minh khả năng của công cụ này, Meta Platforms đã tạo ra một bộ gồm 28 chatbot với các tính cách khác nhau được thiết kế theo giọng nói của những người nổi tiếng như Charli D'Amelio, Snoop Dogg và Tom Brady, theo một bài đăng trên blog của công ty.

Các tính năng này dường như nhằm mục đích phát triển những ứng dụng và thiết bị hiện có hơn là phát triển các bề mặt quảng cáo mới hoặc các nguồn doanh thu khác.

Bob O'Donnell, chuyên gia phân tích tại hãng TECHnalysis Research, nhận xét: "Tôi không thấy việc kiếm tiền từ các sản phẩm AI xảy ra với Meta trong một thời gian dài và tôi nghĩ nó sẽ mang tính gián tiếp hơn. Meta có vẻ quan tâm nhiều hơn đến việc giúp phát triển một nền tảng mà các nhà phát triển khác sẽ sử dụng".

OpenAI bị kiện vi phạm quyền riêng tư vì thu thập bí mật 300 tỉ từ trên internet để đào tạo AI

Cuối tháng 6, hãng luật Clarkson đang tiến hành vụ kiện tập thể chống lại OpenAI, cáo buộc công ty này vi phạm nghiêm trọng bản quyền và quyền riêng tư của vô số người khi sử dụng dữ liệu thu thập được từ internet để đào tạo công nghệ của mình.

Theo vụ kiện dài 157 trang từ Clarkson (công ty luật ở bang California, Mỹ), OpenAI đã vi phạm các luật về quyền riêng tư bằng cách thu thập bí mật 300 tỉ từ trên internet, bao gồm "sách, bài viết, trang web, bài đăng, thông tin cá nhân mà không có sự cho phép", để huấn luyện mô hình ngôn ngữ lớn.

Vụ kiện tìm cách kiểm tra lý thuyết pháp lý mới rằng OpenAI đã vi phạm quyền của hàng triệu người dùng internet khi sử dụng các bình luận trên mạng xã hội, bài đăng trên blog, bài viết trên Wikipedia và công thức nấu ăn gia đình của họ... Clarkson trước đây đã thực hiện một số vụ kiện tập thể quy mô lớn về các vấn đề từ vi phạm dữ liệu đến quảng cáo sai sự thật.

"Clarkson muốn đại diện cho những người thực sự có thông tin bị đánh cắp và sử dụng sai mục đích thương mại để tạo ra công nghệ rất mạnh mẽ này”, theo Ryan Clarkson - thành viên quản lý của công ty luật.

Vụ kiện đi vào trọng tâm của câu hỏi lớn chưa được giải quyết liên quan đến sự gia tăng các công cụ generative AI như chatbot và trình tạo hình ảnh. Công nghệ này hoạt động bằng cách thu thập hàng tỉ từ trên internet và học cách xây dựng các suy luận giữa chúng. Sau khi hấp thụ đủ dữ liệu, các mô hình ngôn ngữ lớn có thể dự đoán những gì cần trả lời để đáp lại truy vấn từ người dùng, giúp chúng có khả năng làm thơ, trò chuyện phức tạp và vượt qua các kỳ thi chuyên nghiệp. Thế nhưng, những người viết ra hàng tỉ từ đó chưa bao giờ đồng ý để một công ty như OpenAI sử dụng chúng vì lợi nhuận riêng.

Clarkson hy vọng tòa án có thể đưa ra quyết định để thiết lập một số biện pháp bảo vệ về cách các thuật toán AI được đào tạo và cách người dùng được bồi thường khi dữ liệu của họ được sử dụng.

Sơn Vân