Vai trò của dữ liệu lớn trong phát triển AI -Bài 1: Xây dựng dữ liệu quốc gia là vấn đề chiến lược, liên quan trực tiếp đến mô hình phát triển
Dữ liệu lớn là nền tảng không thể thiếu để phát triển trí tuệ nhân tạo. Đó là hạ tầng phải được chủ động xây dựng, quản lý và bảo vệ như một tài sản quốc gia chiến lược. Không có AI mạnh nếu không có dữ liệu lớn.
Việt Nam đã nhận ra điều này qua phát biểu của Tổng Bí thư - Chủ tịch nước Tô Lâm. Bước tiếp theo và khó hơn nhiều, là chuyển hóa nhận thức đó thành hệ sinh thái dữ liệu quốc gia thực thụ - đủ lớn, đủ sạch, đủ tin cậy và đủ an toàn để phục vụ cho một thế hệ AI mang bản sắc và phục vụ lợi ích của người Việt Nam.

Trong kiến trúc của các hệ thống AI hiện đại - đặc biệt là học máy (machine learning) và học sâu (deep learning) - dữ liệu lớn (big data) đóng vai trò tương tự như điện đối với động cơ điện: không có điện, động cơ không chạy; không có dữ liệu, mô hình AI không học được gì. AI không thể mạnh nếu không có dữ liệu lớn. Do đó yêu cầu xây dựng dữ liệu lớn cấp quốc gia là vấn đề chiến lược.
Dữ liệu là nền tảng để phát triển các công nghệ lõi
Chủ trì họp Thường trực Ban Chỉ đạo Trung ương về phát triển khoa học, công nghệ (KHCN), đổi mới sáng tạo và chuyển đổi số về nghiên cứu khoa học cơ bản sáng 25/5, Tổng Bí thư - Chủ tịch nước Tô Lâm cho rằng việc xây dựng dữ liệu lớn quốc gia là vấn đề chiến lược, liên quan trực tiếp đến mô hình phát triển, năng lực tự chủ và vị thế quốc gia của Việt Nam trong nhiều thập niên tới.
Nội dung về dữ liệu xuất hiện nhiều lần và rất nổi bật trong phát biểu kết luận của Tổng Bí thư - Chủ tịch nước Tô Lâm. Có thể khái quát thành các nhóm ý chính.
Thứ nhất, dữ liệu được đặt ngang hàng với tri thức, công nghệ và nhân tài, trở thành một trong những nền tảng quyết định sức mạnh quốc gia trong giai đoạn cạnh tranh chiến lược mới.
Thứ hai, dữ liệu là một lĩnh vực công nghệ định hình tương lai, gắn với các ngành mũi nhọn như trí tuệ nhân tạo, bán dẫn, lượng tử, công nghệ sinh học, vật liệu mới và năng lượng mới. Điều này cho thấy dữ liệu không chỉ là tài nguyên thông tin, mà còn là nền tảng để phát triển các công nghệ lõi.
Thứ ba, dữ liệu được xem là điều kiện để đổi mới mô hình phát triển đất nước. Muốn trở thành nước phát triển, thu nhập cao vào năm 2045, Việt Nam phải chuyển mạnh sang mô hình phát triển dựa trên tri thức, KHCN, đổi mới sáng tạo, dữ liệu, văn hóa và con người.
Thứ tư, phát biểu của Tổng Bí thư - Chủ tịch nước Tô Lâm chỉ rõ những điểm nghẽn hiện nay về dữ liệu, như thiếu cơ sở dữ liệu lớn, thiếu hạ tầng tính toán dùng chung, thiếu trung tâm nghiên cứu xuất sắc và cơ chế đầu tư dài hạn. Đây là vấn đề rất quan trọng, vì trong thời đại trí tuệ nhân tạo (AI), không có dữ liệu lớn và hạ tầng tính toán thì khó có thể tạo ra năng lực nghiên cứu cạnh tranh.
Thứ năm, kết luận đặt ra yêu cầu xây dựng hệ thống dữ liệu khoa học và dữ liệu xã hội quốc gia. Dữ liệu phải được coi là hạ tầng chiến lược của nghiên cứu cơ bản. Hệ thống này bao gồm dữ liệu khoa học tự nhiên, công nghệ, biển, khí hậu, sinh học, vật liệu, năng lượng; đồng thời cả dữ liệu dân số, lao động, gia đình, văn hóa, niềm tin xã hội, truyền thông số, ngôn ngữ, di sản và các bộ điều tra xã hội dài hạn.

Bên cạnh đó, Tổng Bí thư - Chủ tịch nước Tô Lâm cũng nhấn mạnh yêu cầu bảo vệ dữ liệu, tài sản trí tuệ, an ninh tri thức và lợi ích quốc gia trong hợp tác quốc tế; đồng thời phải xây dựng chuẩn liêm chính khoa học, công khai dữ liệu tài trợ và xử lý nghiêm các hành vi gian lận, ngụy tạo dữ liệu.
Từ các ý liên quan đến dữ liệu trong kết luận này, có thể rút ra một thông điệp trung tâm: Dữ liệu không chỉ là kết quả của nghiên cứu, mà là hạ tầng nền tảng để tạo ra tri thức mới, phục vụ hoạch định chính sách, phát triển công nghệ và nâng cao năng lực cạnh tranh quốc gia trong thời đại AI. Muốn có AI mạnh, nghiên cứu mạnh và chính sách tốt, trước hết phải có dữ liệu đủ lớn, đủ sạch, đủ tin cậy và đủ an toàn.
Thông điệp này này không phải là khẩu hiệu mang tính hô hào. Đây là sự thừa nhận một thực tế kỹ thuật căn bản: không có hệ thống AI nào có thể hoạt động nếu không có dữ liệu đủ lớn, đủ sạch và đủ đa dạng để huấn luyện. Mối quan hệ giữa dữ liệu lớn và AI hoạt động theo cơ chế tương hỗ - AI cần dữ liệu để học, và ngược lại, AI giúp xử lý, phân loại và sinh ra dữ liệu mới ở quy mô mà con người không thể làm thủ công.
Dữ liệu lớn là "nhiên liệu" không thể thiếu của AI
Trong kết, Tổng Bí thư - Chủ tịch nước Tô Lâm nhấn mạnh thế giới đang bước vào giai đoạn cạnh tranh chiến lược mới, trong đó tri thức, công nghệ, dữ liệu và nhân tài trở thành nền tảng quyết định sức mạnh quốc gia. Những lĩnh vực đang định hình tương lai thế giới như AI, bán dẫn, lượng tử, công nghệ sinh học, vật liệu mới, công nghệ dữ liệu, năng lượng mới đều bắt nguồn từ những nghiên cứu cơ bản được đầu tư liên tục trong nhiều thập kỷ.
Nhận định này không phải là khẩu hiệu mang tính hô hào. Đây là sự thừa nhận một thực tế kỹ thuật căn bản: không có hệ thống AI nào có thể hoạt động nếu không có dữ liệu đủ lớn, đủ sạch và đủ đa dạng để huấn luyện. Mối quan hệ giữa dữ liệu lớn và AI hoạt động theo cơ chế tương hỗ - AI cần dữ liệu để học, và ngược lại, AI giúp xử lý, phân loại và sinh ra dữ liệu mới ở quy mô mà con người không thể làm thủ công.

Trong kiến trúc của các hệ thống AI hiện đại - đặc biệt là học máy (machine learning) và học sâu (deep learning) - dữ liệu lớn đóng vai trò tương tự như điện đối với động cơ điện: không có điện, động cơ không chạy; không có dữ liệu, mô hình AI không học được gì.
Cụ thể, dữ liệu lớn phục vụ AI theo ba chức năng chính:
Huấn luyện mô hình (Training). Các mô hình ngôn ngữ lớn như GPT, Gemini hay các hệ thống AI trong y tế, giao thông, an ninh đều được huấn luyện trên hàng trăm tỷ đến hàng nghìn tỷ tham số, đòi hỏi tập dữ liệu khổng lồ tương ứng. ChatGPT-4 được huấn luyện trên ước tính hơn 13 nghìn tỷ token dữ liệu văn bản. Nếu tập dữ liệu nhỏ, mô hình sẽ bị "overfitting" - tức là học thuộc lòng thay vì học cách tổng quát hóa, dẫn đến thất bại trong môi trường thực tế.
Kiểm định và cải tiến liên tục (Validation & Feedback Loop). Sau khi triển khai, hệ thống AI tiếp tục cần dòng dữ liệu mới từ thực tế để cập nhật, điều chỉnh và tránh bị lỗi thời. Một mô hình dự báo thời tiết nếu không nhận dữ liệu cảm biến mới từ trạm khí tượng sẽ nhanh chóng mất độ chính xác.
Sinh ra tri thức phái sinh. Dữ liệu lớn, khi được AI phân tích, không chỉ trả lời các câu hỏi đã biết mà còn phát hiện các mẫu ẩn mà con người không thể nhìn thấy bằng thống kê truyền thống - đây là giá trị cốt lõi phân biệt AI với các công cụ phân tích thông thường.
Ba đặc tính của dữ liệu lớn quyết định chất lượng AI
Không phải dữ liệu nhiều là đủ. Kết luận của Tổng Bí thư, Chủ tịch nước nhấn mạnh yêu cầu xây dựng hệ thống dữ liệu khoa học và dữ liệu xã hội quốc gia, trong đó dữ liệu phải được coi là hạ tầng chiến lược của nghiên cứu cơ bản trong thời đại AI; đồng thời phải xây dựng chuẩn liêm chính khoa học, công khai dữ liệu tài trợ và xử lý nghiêm các hành vi gian lận, ngụy tạo dữ liệu.
Ba đặc tính bắt buộc để dữ liệu lớn thực sự phục vụ AI là:
Quy mô (Volume). Dữ liệu phải đủ lớn để phủ hết không gian mẫu của bài toán. Một hệ thống AI chẩn đoán ung thư phổi cần hàng triệu ảnh X-quang được gán nhãn chính xác; một hệ thống AI phiên dịch tiếng Việt cần kho ngữ liệu song ngữ hàng tỷ câu. Thiếu quy mô, AI không thể học các trường hợp hiếm gặp nhưng có ý nghĩa quan trọng - ví dụ biến thể bệnh hiếm, tiếng địa phương, tình huống biên (edge cases).
Chất lượng (Veracity). Dữ liệu nhiễu, sai nhãn, thiếu nhất quán sẽ dạy AI học sai. Trong thực tế, các công ty AI lớn thường phải chi tới 60-80% tổng chi phí dự án cho việc làm sạch và chuẩn hóa dữ liệu - một con số phản ánh mức độ quan trọng của chất lượng dữ liệu so với thuật toán. Đây chính là lý do kết luận của Tổng Bí thư - Chủ tịch nước đặt vấn đề và yêu cầu xử lý nghiêm ngụy tạo dữ liệu: dữ liệu giả trong hệ thống khoa học không chỉ làm hỏng nghiên cứu mà còn có thể dẫn đến AI đưa ra quyết định sai nghiêm trọng.
Tính đa dạng và đại diện (Variety & Representativeness). Dữ liệu thiên lệch (biased data) tạo ra AI thiên lệch. Nếu dữ liệu huấn luyện hệ thống nhận diện khuôn mặt chỉ gồm chủ yếu người da trắng, hệ thống sẽ kém chính xác hơn đối với người châu Á hay người da đen - đây là vấn đề đã được kiểm chứng thực nghiệm và gây tranh cãi pháp lý ở nhiều quốc gia.

Hạ tầng tính toán - cầu nối giữa dữ liệu lớn và AI
Dữ liệu lớn chỉ phát huy được giá trị nếu đi kèm với hạ tầng tính toán đủ mạnh. Kết luận chỉ rõ điểm nghẽn hiện tại là thiếu cơ sở dữ liệu lớn, thiếu hạ tầng tính toán dùng chung, thiếu trung tâm nghiên cứu xuất sắc và cơ chế đầu tư dài hạn cho các nhóm nghiên cứu mạnh.
Đây là một nhận diện sắc bén về vòng tròn khép kín của hạ tầng AI: GPU (Graphics Processing Unit) và các chip chuyên dụng như TPU (Tensor Processing Unit) của Google, NPU (Neural Processing Unit) trong các chip Apple Silicon - tất cả đều là phần cứng được thiết kế chuyên biệt để xử lý các phép tính ma trận quy mô cực lớn phát sinh từ quá trình huấn luyện AI trên dữ liệu lớn. Một cụm GPU A100 của NVIDIA có giá hàng triệu USD cho một node, và các mô hình ngôn ngữ lớn như GPT-4 đòi hỏi hàng nghìn node hoạt động song song trong nhiều tuần liên tục. Nếu không có hạ tầng tính toán dùng chung, các nhóm nghiên cứu nhỏ hoàn toàn không thể cạnh tranh, bất kể họ có thuật toán tốt đến đâu.
(còn tiếp)