Nhịp đập khoa học

Quan điểm khác lạ của Mark Zuckerberg khi các hãng công nghệ lớn tìm nguồn dữ liệu mới để đào tạo AI

Sơn Vân • 22/04/2024 22:40

Trong cuộc đua tìm kiếm dữ liệu đào tạo trí tuệ nhân tạo (AI) của các hãng công nghệ lớn, Mark Zuckerberg đưa ra một quan điểm thú vị: Vấn đề không nằm ở dữ liệu.

“Tôi cho rằng thứ có giá trị hơn chính là vòng lặp phản hồi chứ không phải bất kỳ kho dữ liệu ban đầu nào”, Mark Zuckerberg (Giám đốc điều hành Meta Platforms) nói trong một cuộc phỏng vấn với trang tin công nghệ Command Line.

Vòng lặp phản hồi được sử dụng để đào tạo lại và cải thiện các mô hình AI theo thời gian dựa trên kết quả đầu ra trước đó. Ví dụ, thuật toán này cho phép các mô hình AI biết khi nào mắc lỗi và cung cấp cho chúng dữ liệu để điều chỉnh trong tương lai.

Mark Zuckerberg cho rằng việc thu thập phản hồi từ người dùng và sử dụng thông tin đó để cải thiện và tinh chỉnh sản phẩm sẽ là yếu tố quan trọng hơn, đồng thời cũng là yếu tố tạo ra sự khác biệt khi thời gian trôi qua.

Việc tìm kiếm nguồn dữ liệu mới để cung cấp cho các mô hình AI (về lý thuyết sẽ khiến chúng thông minh hơn) đang là nỗi ám ảnh của các công ty đang chạy đua để thống trị lĩnh vực AI.

OpenAI, Google, Amazon, Meta Platforms và các công ty khác đã xem xét một số giải pháp táo bạo. Ví dụ, Meta Platforms đã có lúc khao khát dữ liệu đến mức cân nhắc mua lại công ty xuất bản Simon & Schuster và thậm chí cân nhắc mạo hiểm chấp nhận bị kiện về bản quyền để có thêm tài liệu, trang The New York Times đưa tin.

Một giải pháp khác cho vấn đề hạn chế dữ liệu là tạo dữ liệu mới, thứ mà các hãng công nghệ lớn gọi là "dữ liệu tổng hợp". Dữ liệu tổng hợp được tạo ra nhân tạo và bắt chước dữ liệu do các sự kiện trong thế giới thực tạo ra. Mark Zuckerberg thích điều này.

Tỷ phú 39 tuổi người Mỹ nói: “Tôi nghĩ sẽ có rất nhiều thứ trong dữ liệu tổng hợp, nơi các mô hình AI cố gắng giải quyết các vấn đề khác nhau và xem con đường nào hiệu quả, sau đó sử dụng nó để củng cố”.

Anthropic, hãng phát triển chatbot Claude, cũng đã đưa dữ liệu được tạo nội bộ vào các mô hình AI của mình. OpenAI, công ty tạo ra ChatGPT, đang xem xét điều đó dù Giám đốc điều hành Sam Altman nói tại một hội nghị vào tháng 5.2023 rằng điều quan trọng là phải có một mô hình AI "đủ thông minh để tạo ra dữ liệu tổng hợp tốt".

Mark Zuckerberg coi các vòng lặp phản hồi là chìa khóa để xây dựng mô hình AI mạnh mẽ, nhưng cũng có những rủi ro khi phụ thuộc vào chúng. Chẳng hạn, mô hình AI có thể củng cố một số sai lầm, hạn chế trong khả năng và tỏ ra thành kiến nếu không được đào tạo trên "dữ liệu tốt" ngay từ đầu.

quan-diem-khac-la-cua-mark-zuckerberg-khi-cac-hang-cong-nghe-lon-tim-nguon-du-lieu-moi-de-dao-tao-ai.jpg — Mark Zuckerberg cho rằng thứ có giá trị hơn để đào tạo mô hình AI chính là vòng lặp phản hồi chứ không phải bất kỳ kho dữ liệu ban đầu nào - Ảnh: Getty Images

Thời gian qua, Meta Platforms và những gã khổng lồ công nghệ khác đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo và cải thiện mô hình AI.

Tại Meta Platforms, vấn đề này từng nghiêm trọng đến mức các lãnh đạo đã họp gần như hàng ngày vào tháng 3 và tháng 4.2023 để đưa ra kế hoạch, tờ The New York Times đưa tin đầu tháng này.

Khi hệ thống AI trở nên mạnh mẽ hơn, các hãng công nghệ buộc phải tìm kiếm dữ liệu một cách tích cực hơn và có thể khiến họ có nguy cơ vi phạm bản quyền.

Theo The New York Times, trong các cuộc họp của Meta Platforms, một số người tham dự đã đưa ra ý tưởng mua nhà xuất bản Simon & Schuster (được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỉ USD vào tháng 8.2023). Những người khác đề nghị trả 10 USD/cuốn sách để có được toàn bộ bản quyền với các tựa sách mới.

Vào thời điểm diễn ra các cuộc họp vào tháng 3 và tháng 4.2023, Meta Platforms đã tóm tắt nhiều sách, bài tiểu luận và các tác phẩm trực tuyến khác. Công ty mẹ Facebook đã thuê các nhà thầu ở châu Phi để tập hợp bản tóm tắt các tựa sách hư cấu và phi hư cấu, một số trong đó thông tin có bản quyền.

Những người tham dự đã thảo luận liệu Meta Platforms có thể tiếp tục thu thập dữ liệu từ các nguồn có khả năng được bảo vệ bản quyền mà không cần mất thời gian và tiền bạc để mua thỏa thuận cấp phép hay không.

Khi một luật sư chỉ ra những lo ngại về "đạo đức" của việc lấy tài sản trí tuệ, họ đã im lặng, theo The New York Times. Cuối cùng, các nhà quản lý Meta Platforms đã quyết định dựa vào tiền lệ được thiết lập trong vụ Authors Guild (Hiệp hội Tác giả Mỹ) kiện Google. Đó là vụ kiện năm 2015 được đệ trình lên Tòa án Tối cao Mỹ. Thế nhưng, Tòa án Tối cao Mỹ đã từ chối thụ lý vụ án, giữ nguyên phán quyết của tòa án cấp dưới. Tòa án đó cho biết Google có thể quét và số hóa sách cho dịch vụ Google Books theo nguyên tắc sử dụng hợp lý. Luật sư của Meta Platforms cho biết công ty có thể đào tạo các hệ thống AI riêng theo các nguyên tắc tương tự.

OpenAI, Google, Meta Platforms, Microsoft, Apple, Amazon ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ lớn cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

Nhiều công ty nghiên cứu lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường này hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.

Sơn Vân