Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).
Khoa học - công nghệ

Dữ liệu đào tạo AI đã cạn kiệt

Cẩm Bình 10/01/2025 12:30

Trang TechCrunch dẫn lời tỷ phú công nghệ Elon Musk tỏ ý đồng tình với nhiều chuyên gia khác rằng hiện còn rất ít dữ liệu thực tế để đào tạo các mô hình trí tuệ nhân tạo (AI).

“Về cơ bản chúng ta đã dùng hết tổng lượng kiến ​​thức tích lũy của con người trong quá trình đào tạo AI. Điều đó xảy ra vào năm ngoái”, tỷ phú Musk phát biểu trong một cuộc trò chuyện phát trực tiếp trên mạng xã hội X.

2025-01-10-122608.png

Phát ngôn trên lặp lại quan điểm mà nhà khoa học AI Ilya Sutskever (từng làm việc cho công ty OpenAI) bày tỏ vào tháng 12.2024. Thời điểm đó chuyên gia này đánh giá ngành đã đạt đến “mức đỉnh dữ liệu”, tình trạng thiếu dữ liệu đòi hỏi phải thay đổi cách thức đào tạo các mô hình trí tuệ nhân tạo.

Theo tỷ phú Musk, dữ liệu tổng hợp (synthetic data) - dữ liệu được tạo ra bởi chính AI - là giải pháp khả thi trong tương lai. Ông nói: “Với dữ liệu tổng hợp, AI sẽ tự phân loại và trải qua quá trình tự học”.

Dữ liệu tổng hợp đang được không ít “ông lớn” công nghệ như Microsoft, Meta, OpenAI, Anthropic sử dụng cho công tác đào tạo các mô hình hàng đầu do họ phát triển. Đơn vị nghiên cứu Gartner ước tính 60% dữ liệu dùng cho số dự án AI và phân tích năm ngoái là dữ liệu tổng hợp.

Chẳng hạn Phi-4 của Microsoft tiếp nhận cả dữ liệu thực tế lẫn dữ liệu tổng hợp. Gemma của Google và Claude 3.5 Sonnet của Anthropic cũng tương tự. Thời gian gần đây Meta bắt đầu nhập dữ liệu tổng hợp cho mô hình Llama.

Đào tạo bằng dữ liệu tổng hợp có nhiều lợi ích, đặc biệt là tiết kiệm chi phí. Công ty khởi nghiệp AI Writer cho biết mô hình Palmyra X 004 của mình chỉ tốn 700.000 USD để phát triển khi sử dụng dữ liệu tổng hợp.

Tuy nhiên loại dữ liệu này cũng tồn tại rủi ro. Một số nghiên cứu chỉ ra dữ liệu tổng hợp có thể dẫn đến hiện tượng “sụp đổ mô hình” (model collapse) – mô hình AI trở nên kém sáng tạo hơn và có xu hướng thiên lệch trong đầu ra. Nguyên nhân do dữ liệu tổng hợp chứa đựng thiên kiến lẫn hạn chế từ chính mô hình tạo ra nó, dẫn đến dữ liệu đầu ra bị ảnh hưởng.

Bài liên quan
Các nhà nghiên cứu Google DeepMind tìm ra giải pháp cho vấn đề dữ liệu đào tạo AI đạt đỉnh
Ilya Sutskever, nhà đồng sáng lập và cựu Giám đốc khoa học OpenAI, đã công bố một điều tại hội nghị NeurIPS khiến ngành công nghiệp trí tuệ nhân tạo (AI) phải run sợ.

(0) Bình luận
Nổi bật Một thế giới
Hội Thông tin KH-CN Việt Nam: Hành trình 25 năm phát triển
6 giờ trước Khoa học - công nghệ
Năm 2025 đánh dấu một cột mốc quan trọng trong lịch sử 25 năm thành lập Hội Thông tin Khoa học và Công nghệ Việt Nam. Trải qua quá trình hình thành và phát triển đầy ý nghĩa, hội đã không ngừng khẳng định vai trò của mình trong việc nâng cao chất lượng thông tin khoa học, tạo cầu nối giữa cộng đồng khoa học - công nghệ với xã hội, đồng thời góp phần tích cực vào sự nghiệp phát triển kinh tế - xã hội của đất nước. Nhân dịp này, Một Thế Giới sẽ có loạt bài phân tích, đánh giá cũng như điểm lại các mặt hoạt đ
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Dữ liệu đào tạo AI đã cạn kiệt