Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Quan điểm khác lạ của Mark Zuckerberg khi các hãng công nghệ lớn tìm nguồn dữ liệu mới để đào tạo AI

Sơn Vân • 22/04/2024 22:40

Trong cuộc đua tìm kiếm dữ liệu đào tạo trí tuệ nhân tạo (AI) của các hãng công nghệ lớn, Mark Zuckerberg đưa ra một quan điểm thú vị: Vấn đề không nằm ở dữ liệu.

“Tôi cho rằng thứ có giá trị hơn chính là vòng lặp phản hồi chứ không phải bất kỳ kho dữ liệu ban đầu nào”, Mark Zuckerberg (Giám đốc điều hành Meta Platforms) nói trong một cuộc phỏng vấn với trang tin công nghệ Command Line.

Vòng lặp phản hồi được sử dụng để đào tạo lại và cải thiện các mô hình AI theo thời gian dựa trên kết quả đầu ra trước đó. Ví dụ, thuật toán này cho phép các mô hình AI biết khi nào mắc lỗi và cung cấp cho chúng dữ liệu để điều chỉnh trong tương lai.

Mark Zuckerberg cho rằng việc thu thập phản hồi từ người dùng và sử dụng thông tin đó để cải thiện và tinh chỉnh sản phẩm sẽ là yếu tố quan trọng hơn, đồng thời cũng là yếu tố tạo ra sự khác biệt khi thời gian trôi qua.

Việc tìm kiếm nguồn dữ liệu mới để cung cấp cho các mô hình AI (về lý thuyết sẽ khiến chúng thông minh hơn) đang là nỗi ám ảnh của các công ty đang chạy đua để thống trị lĩnh vực AI.

OpenAI, Google, Amazon, Meta Platforms và các công ty khác đã xem xét một số giải pháp táo bạo. Ví dụ, Meta Platforms đã có lúc khao khát dữ liệu đến mức cân nhắc mua lại công ty xuất bản Simon & Schuster và thậm chí cân nhắc mạo hiểm chấp nhận bị kiện về bản quyền để có thêm tài liệu, trang The New York Times đưa tin.

Một giải pháp khác cho vấn đề hạn chế dữ liệu là tạo dữ liệu mới, thứ mà các hãng công nghệ lớn gọi là "dữ liệu tổng hợp". Dữ liệu tổng hợp được tạo ra nhân tạo và bắt chước dữ liệu do các sự kiện trong thế giới thực tạo ra. Mark Zuckerberg thích điều này.

Tỷ phú 39 tuổi người Mỹ nói: “Tôi nghĩ sẽ có rất nhiều thứ trong dữ liệu tổng hợp, nơi các mô hình AI cố gắng giải quyết các vấn đề khác nhau và xem con đường nào hiệu quả, sau đó sử dụng nó để củng cố”.

Anthropic, hãng phát triển chatbot Claude, cũng đã đưa dữ liệu được tạo nội bộ vào các mô hình AI của mình. OpenAI, công ty tạo ra ChatGPT, đang xem xét điều đó dù Giám đốc điều hành Sam Altman nói tại một hội nghị vào tháng 5.2023 rằng điều quan trọng là phải có một mô hình AI "đủ thông minh để tạo ra dữ liệu tổng hợp tốt".

Mark Zuckerberg coi các vòng lặp phản hồi là chìa khóa để xây dựng mô hình AI mạnh mẽ, nhưng cũng có những rủi ro khi phụ thuộc vào chúng. Chẳng hạn, mô hình AI có thể củng cố một số sai lầm, hạn chế trong khả năng và tỏ ra thành kiến nếu không được đào tạo trên "dữ liệu tốt" ngay từ đầu.

quan-diem-khac-la-cua-mark-zuckerberg-khi-cac-hang-cong-nghe-lon-tim-nguon-du-lieu-moi-de-dao-tao-ai.jpg — Mark Zuckerberg cho rằng thứ có giá trị hơn để đào tạo mô hình AI chính là vòng lặp phản hồi chứ không phải bất kỳ kho dữ liệu ban đầu nào - Ảnh: Getty Images

Thời gian qua, Meta Platforms và những gã khổng lồ công nghệ khác đang nỗ lực tìm kiếm nguồn dữ liệu mới để đào tạo và cải thiện mô hình AI.

Tại Meta Platforms, vấn đề này từng nghiêm trọng đến mức các lãnh đạo đã họp gần như hàng ngày vào tháng 3 và tháng 4.2023 để đưa ra kế hoạch, tờ The New York Times đưa tin đầu tháng này.

Khi hệ thống AI trở nên mạnh mẽ hơn, các hãng công nghệ buộc phải tìm kiếm dữ liệu một cách tích cực hơn và có thể khiến họ có nguy cơ vi phạm bản quyền.

Theo The New York Times, trong các cuộc họp của Meta Platforms, một số người tham dự đã đưa ra ý tưởng mua nhà xuất bản Simon & Schuster (được công ty cổ phần tư nhân KKR mua lại với giá 1,62 tỉ USD vào tháng 8.2023). Những người khác đề nghị trả 10 USD/cuốn sách để có được toàn bộ bản quyền với các tựa sách mới.

Vào thời điểm diễn ra các cuộc họp vào tháng 3 và tháng 4.2023, Meta Platforms đã tóm tắt nhiều sách, bài tiểu luận và các tác phẩm trực tuyến khác. Công ty mẹ Facebook đã thuê các nhà thầu ở châu Phi để tập hợp bản tóm tắt các tựa sách hư cấu và phi hư cấu, một số trong đó thông tin có bản quyền.

Những người tham dự đã thảo luận liệu Meta Platforms có thể tiếp tục thu thập dữ liệu từ các nguồn có khả năng được bảo vệ bản quyền mà không cần mất thời gian và tiền bạc để mua thỏa thuận cấp phép hay không.

Khi một luật sư chỉ ra những lo ngại về "đạo đức" của việc lấy tài sản trí tuệ, họ đã im lặng, theo The New York Times. Cuối cùng, các nhà quản lý Meta Platforms đã quyết định dựa vào tiền lệ được thiết lập trong vụ Authors Guild (Hiệp hội Tác giả Mỹ) kiện Google. Đó là vụ kiện năm 2015 được đệ trình lên Tòa án Tối cao Mỹ. Thế nhưng, Tòa án Tối cao Mỹ đã từ chối thụ lý vụ án, giữ nguyên phán quyết của tòa án cấp dưới. Tòa án đó cho biết Google có thể quét và số hóa sách cho dịch vụ Google Books theo nguyên tắc sử dụng hợp lý. Luật sư của Meta Platforms cho biết công ty có thể đào tạo các hệ thống AI riêng theo các nguyên tắc tương tự.

OpenAI, Google, Meta Platforms, Microsoft, Apple, Amazon ban đầu sử dụng miễn phí dữ liệu lấy từ internet để đào tạo các mô hình AI tạo sinh có thể bắt chước khả năng sáng tạo của con người. Họ nói rằng làm như vậy vừa hợp pháp vừa có đạo đức, dù phải đối mặt với các vụ kiện từ nhiều chủ sở hữu bản quyền về hành vi này.

Ngoài ra, các hãng công nghệ lớn cũng đang âm thầm trả tiền cho nội dung bị ẩn sau tường phí và màn hình đăng nhập, dẫn đến hoạt động giao dịch ngầm về mọi thứ, từ nhật ký trò chuyện đến ảnh cá nhân bị lãng quên từ lâu trên các ứng dụng mạng xã hội cũ.

Edward Klaris từ công ty luật Klaris Law nói: “Đang có một cuộc chạy đua để tìm đến những chủ sở hữu bản quyền có bộ sưu tập riêng tư về những thứ không thể thu thập tự động”. Klaris Law tiết lộ rằng đang tư vấn cho chủ sở hữu nội dung về các giao dịch trị giá hàng chục triệu USD cấp phép về ảnh, video và sách để đào tạo AI.

Nhiều công ty nghiên cứu lớn cho biết còn chưa bắt đầu ước tính quy mô của thị trường dữ liệu AI không minh bạch, nơi các công ty thường không tiết lộ các thỏa thuận. Còn hãng Business Research Insights ước tính thị trường này hiện ở mức khoảng 2,5 tỉ USD và dự đoán nó có thể tăng gần 30 tỉ USD trong vòng một thập kỷ.

Việc thu thập dữ liệu diễn ra khi các nhà sản xuất mô hình AI tạo sinh phải đối mặt với áp lực ngày càng tăng trong việc giải quyết lượng nội dung khổng lồ mà họ đưa vào hệ thống của mình, một quá trình được gọi là "đào tạo" đòi hỏi sức mạnh tính toán chuyên sâu và thường mất nhiều tháng để hoàn thành.

Các công ty cho biết công nghệ này sẽ rất tốn kém nếu không thể sử dụng kho lưu trữ khổng lồ dữ liệu trang web được thu thập miễn phí, chẳng hạn dữ liệu được cung cấp bởi kho lưu trữ phi lợi nhuận Common Crawl mà họ mô tả là "có sẵn công khai".

Tuy nhiên, cách tiếp cận này đã tạo ra một làn sóng các vụ kiện bản quyền và sức ép pháp lý, đồng thời thúc đẩy các nhà xuất bản thêm mã vào trang web của họ để chặn việc thu thập thông tin.

Để đáp lại, các nhà sản xuất mô hình AI đã bắt đầu phòng ngừa rủi ro và đảm bảo chuỗi cung ứng dữ liệu, thông qua các thỏa thuận với chủ sở hữu nội dung và ngành công nghiệp môi giới dữ liệu đang phát triển để đáp ứng nhu cầu.

Trong những tháng sau khi OpenAI ra mắt ChatGPT cuối năm 2022, Meta Platforms, Google, Amazon và Apple đều đạt được thỏa thuận với Shutterstock để sử dụng hàng trăm triệu hình ảnh, video và bản nhạc trong thư viện của họ cho mục đích đào tạo AI.

Jarrod Yahes, Giám đốc tài chính của Shutterstock, nói với Reuters rằng thỏa thuận với các hãng công nghệ lớn ban đầu dao động từ 25 triệu USD đến 50 triệu USD mỗi công ty, dù hầu hết sau đó đã được mở rộng. Ông nói thêm rằng những hãng công nghệ nhỏ hơn đã làm theo, thúc đẩy một "hàng loạt hoạt động" mới trong hai tháng qua.

Jarrod Yahes từ chối bình luận về các hợp đồng cá nhân.

Freepik, đối thủ cạnh tranh của Shutterstock, nói với Reuters rằng đã đạt được thỏa thuận với hai hãng công nghệ lớn để cấp phép cho phần lớn kho lưu trữ 200 triệu hình ảnh của mình với mức giá từ 2 đến 4 cent/mỗi ảnh. Joaquin Cuenca Abela, Giám đốc điều hành Freepik, nói có thêm 5 giao dịch tương tự đang được thực hiện nhưng từ chối tiết lộ người mua.

OpenAI, khách hàng ban đầu của Shutterstock, cũng ký thỏa thuận được cấp phép với ít nhất bốn tổ chức tin tức, trong đó có The Associated Press (AP) và Axel Springer.

Bài liên quan

Cách Mark Zuckerberg, Jensen Huang, Sam Altman và CEO hãng công nghệ lớn sử dụng AI

Kể từ khi OpenAI ra mắt ChatGPT vào tháng 11.2023, nhiều người đã sử dụng chatbot trí tuệ nhân tạo (AI) này trong cuộc sống cá nhân và công việc của họ, gồm cả lãnh đạo một số doanh nghiệp có ảnh hưởng nhất thế giới.

Đọc tiếp

Mark Zuckerberg có hơn 1.200 mẫu đất và nhiều bất động sản, xây khu phức hợp bí mật khổng lồ trên đảo

Các trung tâm dữ liệu ở Trung Quốc tiêu thụ lượng nước đủ cho 26 triệu người dùng, AI sẽ gây thêm căng thẳng

Mô hình Llama 3 ra mắt, Mark Zuckerberg gọi Meta AI là 'trợ lý AI miễn phí thông minh nhất'

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư: KH-CN, đổi mới sáng tạo là con đường duy nhất để đưa đất nước phát triển

5 giờ trước Nhịp đập khoa học

Theo Tổng Bí thư Tô Lâm, phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số là lựa chọn bắt buộc, là con đường duy nhất để đưa đất nước phát triển và nâng cao đời sống cho nhân dân. Phải triển khai thật mạnh để quản trị xã hội tốt hơn và tăng năng suất lao động.

ChatGPT lập kỷ lục mới về lượng người dùng nhờ tính năng tạo ảnh theo phong cách Ghibli

Cơn sốt tạo ảnh trí tuệ nhân tạo (AI) theo phong cách Ghibli bằng ChatGPT đã dẫn đến sự gia...
Quỹ nhà ở quốc gia: Cần có cơ chế ứng ra hoặc cho vay rồi thu về

Ông Lê Văn Bình cho rằng nếu chỉ dùng Quỹ nhà ở quốc gia để xây nhà ở xã hội thì sẽ không đủ...
Chủ tịch VUSTA: Xây dựng năng lượng xanh bền vững cần có sự tham gia của đội ngũ khoa học

Để có thể xây dựng và phát triển ngành năng lượng và điện lực Việt Nam theo hướng bền vững,...

Đừng bỏ lỡ

Cửa hàng ứng dụng của Apple và Google chứa các VPN miễn phí liên kết với tập đoàn Trung Quốc bị Mỹ trừng phạt

1 giờ trước Thế giới số

Phát hiện mới tiết lộ rằng các ứng dụng VNP giúp "duyệt web riêng tư" miễn phí, phổ biến với người dùng Mỹ, có liên kết với Qihoo 360. Đây là tập đoàn bị Mỹ đưa vào danh sách đen vào năm 2020.
Kết quả đề án xây dựng 4.500 phòng học tại TP.HCM chưa đáp ứng mục tiêu đề ra

2 giờ trước Giáo dục

Ngày 1.4, Ban Văn hóa - Xã hội, HĐND TP.HCM có buổi giám sát việc triển khai thực hiện Đề án xây dựng 4.500 phòng học chào mừng kỷ niệm 50 năm Ngày Giải phóng miền Nam thống nhất đất nước.
Các bị cáo trong vụ 'bảo kê' xe quá tải qua Đồng Nai bị đề nghị cao nhất từ 9 - 10 năm tù

2 giờ trước Sự kiện

Chiều 1.4, tại phiên tòa xét xử sơ thẩm đối với các bị cáo trong vụ môi giới hối lộ xảy ra tại Trạm Cảnh sát giao thông Suối Tre, Viện KSND tỉnh Đồng Nai đã đề nghị mức án cho các bị cáo.
Bộ Y tế đình chỉ lưu thông 4 phụ gia thực phẩm vi phạm về nhãn hàng hóa

3 giờ trước Thông tin Y học

Ngày 1.4, Cục An toàn thực phẩm (Bộ Y tế) đã ra thông báo đình chỉ lưu thông 4 loại phụ gia thực phẩm do vi phạm quy định về ghi nhãn hàng hóa.
Các chuyên gia y tế Vinmec sẽ đồng hành chăm sóc sức khỏe tuyển thủ quốc gia

3 giờ trước Thông tin Y học

Vinmec sẽ cử các chuyên gia y tế giàu kinh nghiệm trực tiếp tham gia và đồng hành chăm sóc sức khỏe cho các tuyển thủ trong suốt quá trình tập huấn, thi đấu tại các giải đấu lớn quốc tế.

Mới nhất

ChatGPT lập kỷ lục mới về lượng người dùng nhờ tính năng tạo ảnh theo phong cách Ghibli

một giờ trước Nhịp đập khoa học

Cơn sốt tạo ảnh trí tuệ nhân tạo (AI) theo phong cách Ghibli bằng ChatGPT đã dẫn đến sự gia tăng kỷ lục về số lượng người dùng chatbot của OpenAI vào tuần trước, khiến máy chủ bị quá tải và tạm thời giới hạn tính năng này.
Quỹ nhà ở quốc gia: Cần có cơ chế ứng ra hoặc cho vay rồi thu về

5 giờ trước Hạ tầng và bất động sản

Ông Lê Văn Bình cho rằng nếu chỉ dùng Quỹ nhà ở quốc gia để xây nhà ở xã hội thì sẽ không đủ nguồn lực, bởi không có quỹ nào đủ lớn để gánh toàn bộ chi phí xây dựng hàng trăm nghìn căn hộ trên cả nước.
Tổng Bí thư: KH-CN, đổi mới sáng tạo là con đường duy nhất để đưa đất nước phát triển

5 giờ trước Nhịp đập khoa học

Theo Tổng Bí thư Tô Lâm, phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số là lựa chọn bắt buộc, là con đường duy nhất để đưa đất nước phát triển và nâng cao đời sống cho nhân dân. Phải triển khai thật mạnh để quản trị xã hội tốt hơn và tăng năng suất lao động.
Bản án nào cho các cựu lãnh đạo tỉnh An Giang ‘tiếp tay’ khai thác cát lậu?

6 giờ trước Theo dòng thời sự

Ngày mai (2.4), Hội đồng xét xử TAND TP.HCM sẽ tuyên án sơ thẩm đối với các bị cáo trong vụ án khai thác cát lậu xảy ra tại Công ty cổ phần Đầu tư Trung Hậu 68 - Tổng 68.
Bộ Tài chính: Khối lượng công việc rất lớn, các đơn vị phải làm việc ngày đêm, cả thứ bảy, Chủ nhật

6 giờ trước Theo dòng thời sự

Thứ trưởng Bộ Tài chính Lê Tấn Cận cho biết, sau khi rà soát văn bản theo định hướng sửa đổi Hiến pháp, Bộ Tài chính cần phải sửa đổi 195 văn bản quy phạm pháp luật. Khối lượng công việc rất lớn, các đơn vị của bộ làm việc không ngơi nghỉ, cả ngày đêm, cả thứ bảy, Chủ nhật.