Nhịp đập khoa học

Cuộc đua ngầm mua dữ liệu đào tạo AI của Big Tech mang lại cho Photobucket sức sống mới

Sơn Vân • 06/04/2024 15:00

Vào thời kỳ đỉnh cao đầu những năm 2000, Photobucket là trang web lưu trữ hình ảnh hàng đầu thế giới.

Là trụ cột cho việc chia sẻ ảnh trên các dịch vụ phổ biến thời đó như Myspace và Friendster, Photobucket từng tự hào có 70 triệu người dùng, chiếm gần một nửa thị trường ảnh trực tuyến ở Mỹ.

Ngày nay, chỉ có 2 triệu người vẫn sử dụng Photobucket, theo công cụ theo dõi phân tích của Similarweb. Thế nhưng, cuộc cách mạng AI có thể mang lại cho Photobucket một sức sống mới.

Ted Leonard, Giám đốc điều hành Photobucket (công ty gồm 40 thành viên ở thị trấn Edwards, bang Colorado, Mỹ), nói với Reuters rằng ông đang đàm phán với nhiều hãng công nghệ để cấp phép cho 13 tỉ bức ảnh và video của Photobucket được sử dụng để đào tạo các mô hình AI tạo sinh.

Ted Leonard đã thảo luận về mức giá từ 5 cent đến 1 USD cho mỗi bức ảnh và hơn 1 USD cho mỗi video, với mức giá rất khác nhau tùy theo người mua và loại ảnh được tìm kiếm.

Ông nói thêm: “Nhiều công ty cần nhiều hơn thế nữa”. Theo Ted Leonard, một đối tác nói rằng muốn có hơn 1 tỉ video, nhiều hơn những gì Photobucket sở hữu.

Photobucket từ chối tiết lộ danh tính người mua tiềm năng với lý do bảo mật thương mại. Các cuộc đàm phán đang diễn ra cho thấy Photobucket có thể nắm giữ nội dung trị giá hàng tỉ USD và đưa ra cái nhìn thoáng qua về thị trường dữ liệu đang phát triển trong cơn sốt AI tạo sinh.

Những hãng công nghệ lớn như Google, Meta Platforms và OpenAI (được Microsoft hậu thuẫn) ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ nêu trên cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

cuoc-dua-ngam-mua-du-lieu-dao-tao-ai-cua-big-tech-mang-lai-cho-photobucket-suc-song-moi.png — Photobucket đang đàm phán với nhiều hãng công nghệ để cấp phép cho 13 tỉ bức ảnh và video của mình được sử dụng để đào tạo các mô hình AI tạo sinh - Ảnh: Internet

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

Reuters nói chuyện với hơn 30 người có kiến thức về các giao dịch dữ liệu AI, bao gồm các giám đốc điều hành hiện tại và trước đây tại các công ty liên quan, luật sư và nhà tư vấn, để cung cấp thông tin chuyên sâu về thị trường non trẻ này.

OpenAI, Google, Meta Platforms, Microsoft, Apple và Amazon đều từ chối bình luận về các giao dịch và thảo luận dữ liệu cụ thể. Thế nhưng, Microsoft và Google đã giới thiệu với Reuters về các quy tắc ứng xử của nhà cung cấp, gồm cả điều khoản về quyền riêng tư dữ liệu.

Google nói thêm rằng sẽ "ngay lập tức hành động, gồm cả việc chấm dứt" thỏa thuận với nhà cung cấp nếu phát hiện vi phạm ra hành vi vi phạm.

Nhiều công ty nghiên cứu thị trường lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Cơn sốt dữ liệu đào tạo AI

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Ví dụ, trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với nhà cung cấp hình ảnh chứng khoán Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.

Thomson Reuters, chủ sở hữu của Reuters News, cho biết đã đạt được thỏa thuận cấp phép nội dung tin tức để giúp đào tạo các mô hình ngôn ngữ lớn AI, nhưng không tiết lộ chi tiết.

"Nội dung có nguồn gốc hợp pháp"

Một ngành công nghiệp gồm các công ty dữ liệu AI chuyên dụng cũng đang nổi lên, đảm bảo quyền với nội dung thực tế thực như podcast, video dạng ngắn và tương tác với trợ lý kỹ thuật số, đồng thời xây dựng mạng lưới nhân viên hợp đồng ngắn hạn để tạo ra các mẫu hình ảnh và giọng nói tùy chỉnh từ đầu.

Defined.ai (có trụ sở tại thành phố Seattle, bang Washington, Mỹ) cấp phép dữ liệu cho nhiều công ty như Google, Meta Platforms, Apple, Amazon và Microsoft. Daniela Braga (Giám đốc điều hành Defined.ai) tiết lộ với Reuters điều này.

Giá cả khác nhau tùy theo người mua và loại nội dung, nhưng Daniela Braga cho biết các công ty thường sẵn sàng trả từ 1 đến 2 USD cho mỗi hình ảnh, 2 đến 4 USD với mỗi video dạng ngắn và 100 đến 300 USD mỗi giờ cho phim dài hơn. Bà nói thêm rằng giá thị trường cho văn bản là 0,001 USD mỗi từ.

Daniela Braga cho biết những hình ảnh khỏa thân, đòi hỏi phải xử lý nhạy cảm nhất, có giá từ 5 đến 7 USD.

Theo Daniela Braga, Defined.ai chia những khoản thu nhập đó với các nhà cung cấp nội dung. Bà nói thêm, Defined.ai tiếp thị các tập dữ liệu của mình là "có nguồn gốc hợp pháp" vì nhận được sự đồng ý từ những người có dữ liệu mà nó sử dụng và loại bỏ thông tin nhận dạng cá nhân.

cuoc-dua-ngam-mua-du-lieu-dao-tao-ai-cua-big-tech-mang-lai-cho-photobucket-suc-song-moi.jpg — Defined.ai cấp phép dữ liệu cho Google, Meta Platforms, Apple, Amazon và Microsoft - Ảnh: Internet

Doanh nhân tại Brazil, một trong những nhà cung cấp của Defined.ai, nói trả khoảng 20% đến 30% tổng giá trị thỏa thuận cho chủ sở hữu những bức ảnh, podcast và dữ liệu y tế mà ông nhận được.

Ông cho biết những hình ảnh đắt giá nhất trong danh mục đầu tư của mình thừng được sử dụng để đào tạo các hệ thống AI chặn nội dung, chẳng hạn hình ảnh bạo lực bị các hãng công nghệ cấm.

Để thực hiện những yêu cầu đó, ông thu thập các hình ảnh về hiện trường vụ án, bạo lực xung đột và các cuộc phẫu thuật (chủ yếu từ cảnh sát, phóng viên ảnh tự do và sinh viên y khoa) thường tại Nam Mỹ và châu Phi, nơi phân phối hình ảnh bạo lực trực quan phổ biến hơn.

Ông nói đã nhận được hình ảnh của các nhiếp ảnh gia tự do ở Gaza kể từ khi bắt đầu cuộc chiến ở đó vào tháng 10, cùng một số hình ảnh từ Israel khi bắt đầu chiến sự.

Reddit bị điều tra hoạt động kinh doanh cấp phép dữ liệu

Dù cấp phép có thể giải quyết một số vấn đề pháp lý và đạo đức, việc hồi sinh kho lưu trữ của các tên tuổi cũ như Photobucket để làm dữ liệu cho các mô hình AI mới nhất lại đặt ra những vấn đề khác, đặc biệt là về quyền riêng tư của người dùng, theo nhiều người trong ngành được Reuters phỏng vấn.

Các hệ thống AI đã bị phát hiện sao chép chính xác của dữ liệu đào tạo chúng, chẳng hạn logo chìm của Getty Images, đoạn văn từ bài viết trên tờ New York Times và hình ảnh người thật. Điều đó đồng nghĩa những bức ảnh riêng tư hoặc những suy nghĩ của một người được đăng cách đây nhiều thập kỷ có thể xuất hiện trong các kết quả đầu ra của AI tạo sinh mà không cần thông báo hoặc có sự đồng ý rõ ràng.

Ted Leonard, Giám đốc điều hành Photobucket, khẳng định ông có cơ sở pháp lý vững chắc cấp cho công ty "quyền không hạn chế" để bán bất kỳ nội dung nào được tải lên Photobucket nhằm mục đích đào tạo hệ thống AI. Ted Leonard coi việc cấp phép dữ liệu như một giải pháp thay thế cho việc bán quảng cáo.

Ông nói: “Chúng tôi cần thanh toán các hóa đơn và điều này có thể mang lại cho chúng tôi khả năng tiếp tục hỗ trợ các tài khoản miễn phí”.

Daniela Braga cho biết tránh mua nội dung từ các công ty nền tảng như Photobucket và thích lấy nguồn ảnh trên mạng xã hội từ những người có ảnh hưởng đã tạo ra chúng, mà bà cho rằng có yêu cầu rõ ràng hơn về quyền cấp phép.

Daniela Braga nói về nội dung từ các công ty nền tảng: “Tôi thấy nó rất rủi ro. Nếu AI tạo ra thứ gì đó giống với hình ảnh của một người chưa bao giờ chấp nhận thì đó là một vấn đề”.

Photobucket không phải là nền tảng duy nhất chấp nhận cấp phép. Automattic, công ty mẹ của Tumblr, thông báo vào tháng trước rằng đang chia sẻ nội dung với "các công ty AI được chọn lọc". Tháng 2, Reuters đưa tin Reddit đã đạt được thỏa thuận để cung cấp nội dung của nó cho việc đào tạo các mô hình AI của Google.

Trước đợt chào bán cổ phiếu lần đầu ra công chúng vào tháng 3, Reddit tiết lộ hoạt động kinh doanh cấp phép dữ liệu của họ bị Ủy ban Thương mại Liên bang Mỹ (FTC) điều tra, thừa nhận rằng nó có thể vi phạm các quy định về quyền riêng tư và sở hữu trí tuệ đang phát triển.

FTC từ chối bình luận về cuộc điều tra Reddit và không cho biết liệu có đang xem xét các giao dịch dữ liệu đào tạo AI khác hay không.