Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).
Khoa học - công nghệ

Dữ liệu đào tạo AI đã cạn kiệt

Cẩm Bình 10/01/2025 12:30

Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).

“Về cơ bản chúng ta đã dùng hết tổng lượng kiến ​​thức tích lũy của con người trong quá trình đào tạo AI. Điều đó xảy ra vào năm ngoái”, tỷ phú Musk phát biểu trong một cuộc trò chuyện phát trực tiếp trên mạng xã hội X.

2025-01-10-122608.png

Phát ngôn trên lặp lại quan điểm mà nhà khoa học AI Ilya Sutskever (từng làm việc cho công ty OpenAI) bày tỏ vào tháng 12.2024. Thời điểm đó chuyên gia này đánh giá ngành đã đạt đến “mức đỉnh dữ liệu”, tình trạng thiếu dữ liệu đòi hỏi phải thay đổi cách thức đào tạo các mô hình trí tuệ nhân tạo.

Theo tỷ phú Musk, dữ liệu tổng hợp (synthetic data) - dữ liệu được tạo ra bởi chính AI - là giải pháp khả thi trong tương lai. Ông nói: “Với dữ liệu tổng hợp, AI sẽ tự phân loại và trải qua quá trình tự học”.

Dữ liệu tổng hợp đang được không ít “ông lớn” công nghệ như Microsoft, Meta, OpenAI, Anthropic sử dụng cho công tác đào tạo các mô hình hàng đầu do họ phát triển. Đơn vị nghiên cứu Gartner ước tính 60% dữ liệu dùng cho số dự án AI và phân tích năm ngoái là dữ liệu tổng hợp.

Chẳng hạn Phi-4 của Microsoft tiếp nhận cả dữ liệu thực tế lẫn dữ liệu tổng hợp. Gemma của Google và Claude 3.5 Sonnet của Anthropic cũng tương tự. Thời gian gần đây Meta bắt đầu nhập dữ liệu tổng hợp cho mô hình Llama.

Đào tạo bằng dữ liệu tổng hợp có nhiều lợi ích, đặc biệt là tiết kiệm chi phí. Công ty khởi nghiệp AI Writer cho biết mô hình Palmyra X 004 của mình chỉ tốn 700.000 USD để phát triển khi sử dụng dữ liệu tổng hợp.

Tuy nhiên loại dữ liệu này cũng tồn tại rủi ro. Một số nghiên cứu chỉ ra dữ liệu tổng hợp có thể dẫn đến hiện tượng “sụp đổ mô hình” (model collapse) – mô hình AI trở nên kém sáng tạo hơn và có xu hướng thiên lệch trong đầu ra. Nguyên nhân do dữ liệu tổng hợp chứa đựng thiên kiến lẫn hạn chế từ chính mô hình tạo ra nó, dẫn đến dữ liệu đầu ra bị ảnh hưởng.

Bài liên quan
Đột phá với chip chạy bằng ánh sáng giúp tăng tốc đào tạo AI và giảm tiêu thụ năng lượng
Các kỹ sư tại Pennsylva (Mỹ) đã phát triển chip lập trình đầu tiên có khả năng đào tạo mạng nơ ron phi tuyến tính bằng ánh sáng - một bước tiến lớn có thể giúp tăng tốc đào tạo AI, giảm tiêu thụ năng lượng và có khả năng dẫn đến các hệ thống máy tính hoàn toàn sử dụng ánh sáng.

(0) Bình luận
Nổi bật Một thế giới
Việt Nam mong muốn hợp tác chặt chẽ với Liên bang Nga để nâng tầm quan hệ
5 giờ trước Sự kiện
Tổng Bí thư Tô Lâm nhấn mạnh Việt Nam đặc biệt coi trọng quan hệ hữu nghị truyền thống, sẵn sàng hợp tác chặt chẽ với Liên bang Nga để nâng tầm quan hệ trên các trụ cột then chốt.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Dữ liệu đào tạo AI đã cạn kiệt