Nhịp đập công nghệ

Vai trò của dữ liệu lớn trong phát triển AI -Bài 2: Dữ liệu lớn và tham vọng đưa GDP Việt Nam chạm mốc 1.000 tỉ USD

Lưu Vĩnh Hy 27/05/2026 13:01

Dữ liệu lớn không phải là kết quả phụ của nghiên cứu hay sản phẩm tự nhiên của quản trị - đó là hạ tầng phải được chủ động xây dựng, quản lý và bảo vệ như một tài sản quốc gia chiến lược. Nếu Việt Nam phát triển AI hiệu quả, có thể đóng góp từ 120 - 130 tỉ USD vào GDP đến năm 2040, góp phần đưa nước ta để có quy mô nền kinh tế đạt mốc 1.000 tỉ USD.

Dữ liệu xã hội - chiều kích bị đánh giá thấp trong phát triển AI

Một trong những điểm đặc biệt trong kết luận ngày 25/5 của Tổng Bí thư - Chủ tịch nước Tô Lâm là sự xuất hiện song hành của hai loại dữ liệu: dữ liệu khoa học tự nhiên và dữ liệu xã hội. Tổng Bí thư - Chủ tịch nước yêu cầu phát triển dữ liệu khoa học tự nhiên, công nghệ, biển, khí hậu, sinh học, vật liệu, năng lượng; đồng thời xây dựng dữ liệu dân số, lao động, gia đình, văn hóa, niềm tin xã hội, truyền thông số, ngôn ngữ, di sản và các bộ điều tra xã hội dài hạn.

ảnh 1 bài 2
Dữ liệu lớn (big Data) là cơ sở dữ liệu cực kỳ quan trong để phát triển AI

Điều này phản ánh sự hiểu biết đúng đắn về cấu trúc của AI ứng dụng trong quản trị công. AI không chỉ cần dữ liệu từ phòng thí nghiệm; nó cần dữ liệu về con người để phục vụ con người. Cụ thể:

Các hệ thống AI trong hoạch định chính sách (policy AI) cần dữ liệu dân số, lao động, phúc lợi xã hội dài hạn để dự báo hệ quả của các quyết định - một bài học mà nhiều quốc gia học được sau đại dịch COVID-19, khi các mô hình dự báo không có dữ liệu xã hội tốt cho ra kết quả sai lệch nghiêm trọng.

Các hệ thống xử lý ngôn ngữ tiếng Việt (NLP/NLU) đòi hỏi kho ngữ liệu ngôn ngữ phong phú bao gồm cả phương ngữ, tiếng địa phương, ngôn ngữ của các dân tộc thiểu số, văn bản hành chính, báo chí, văn học. Thiếu kho dữ liệu ngôn ngữ đặc thù Việt Nam, các mô hình AI tiếng Việt sẽ mãi phụ thuộc vào hệ thống do Mỹ, Trung Quốc hay các cường quốc khác phát triển - và tất nhiên không thể phục vụ tốt nhu cầu đặc thù của người Việt.

Ngày 26/5, tại Hải Phòng diễn ra Hội thảo khoa học quốc gia với chủ đề “Đổi mới mô hình phát triển đất nước dựa trên khoa học công nghệ (KHCN), đổi mới sáng tạo và chuyển đổi số”, tinh thần cốt lõi của hội thảo là: Việt Nam phải đổi mới căn bản mô hình phát triển, lấy KHCN, đổi mới sáng tạo và chuyển đổi số làm nền tảng và động lực chủ yếu; phải phát triển dựa trên tri thức, công nghệ, dữ liệu và con người Việt Nam.

ảnh 2 bài 2
Big data được ứng dụng rất hiệu quả trên lĩnh vực y tế

Xét từ góc độ phát triển AI quốc gia, Việt Nam đang đứng trước ba thách thức cấu trúc chính:

Thứ nhất, phân tán và cô lập dữ liệu. Dữ liệu hiện nay nằm rải rác ở các bộ, ngành, địa phương, doanh nghiệp nhà nước mà không được kết nối thành kho dữ liệu dùng chung. Đây là rào cản lớn nhất: một mô hình AI dự báo dịch bệnh cần kết hợp dữ liệu y tế, dữ liệu di chuyển, dữ liệu môi trường - nhưng nếu ba nguồn đó nằm ở ba cơ quan khác nhau với định dạng và quyền truy cập khác nhau, việc xây dựng mô hình là bất khả thi.

Thứ hai, thiếu chuẩn hóa và liêm chính dữ liệu. Yêu cầu ban hành chuẩn liêm chính khoa học quốc gia, gắn với cơ chế đánh giá, công khai dữ liệu tài trợ và xử lý nghiêm gian lận học thuật, ngụy tạo dữ liệu, đạo văn, xung đột lợi ích, là rất quan trọng. Việc ngụy tạo dữ liệu trong nghiên cứu khoa học không chỉ là vấn đề học thuật - khi những nghiên cứu này được dùng để huấn luyện AI, sai lầm có thể nhân bản và khuếch đại ở quy mô hệ thống, gây hậu quả nghiêm trọng trong y tế, tư pháp hay quản lý công.

Ngoài ra, yêu cầu bảo vệ dữ liệu, tài sản trí tuệ, an ninh tri thức và lợi ích quốc gia trong hợp tác quốc tế. Trong bối cảnh các tập đoàn công nghệ lớn đang thu thập dữ liệu người dùng toàn cầu để huấn luyện các mô hình AI của họ, dữ liệu về người Việt Nam - hành vi, sở thích, ngôn ngữ, y tế - nếu không được quản lý chủ động, sẽ trở thành nguồn lực phục vụ cho năng lực AI của nước ngoài hơn là cho chính Việt Nam.

Từ tầm nhìn chiến lược đến hành động cụ thể

Từ bức tranh cụ thể nêu trên, có thể rút ra một thông điệp trung tâm có tính hệ thống: dữ liệu lớn không phải là kết quả phụ của nghiên cứu hay sản phẩm tự nhiên của quản trị - đó là hạ tầng phải được chủ động xây dựng, quản lý và bảo vệ như một tài sản quốc gia chiến lược.

Trong cạnh tranh AI toàn cầu, quốc gia nào kiểm soát dữ liệu lớn về lĩnh vực trọng yếu - y tế, quốc phòng, ngôn ngữ, địa lý - sẽ có lợi thế phi đối xứng và khó bù đắp trong thời gian ngắn. Đây là lý do Mỹ, Trung Quốc, EU đều đang ban hành các đạo luật quản trị dữ liệu mang tính chiến lược quốc gia, không đơn thuần là quy định kỹ thuật.

ảnh 3 bài 2
Big data được ứng dụng để theo dõi số liệu

Với Việt Nam, lộ trình khả thi cần đi theo trật tự ưu tiên rõ ràng: trước hết chuẩn hóa và kết nối dữ liệu hiện có trong khu vực công; tiếp theo đầu tư hạ tầng tính toán dùng chung để dân chủ hóa khả năng nghiên cứu AI; song song đó xây dựng kho ngữ liệu tiếng Việt và kho dữ liệu khoa học quốc gia như nền móng cho các mô hình AI nội địa; và xuyên suốt là duy trì cơ chế giám sát chất lượng, liêm chính và an ninh dữ liệu nghiêm ngặt. Mục tiêu đến năm 2030 là từng bước xây dựng một số trung tâm nghiên cứu xuất sắc, nhóm nghiên cứu mạnh, cơ sở dữ liệu khoa học lớn và hạ tầng nghiên cứu dùng chung có năng lực cạnh tranh trong khu vực.

Đó không chỉ là bài toán kỹ thuật - đó là điều kiện tiên quyết để Việt Nam không trở thành quốc gia tiêu thụ AI của người khác, mà là quốc gia có khả năng tạo ra AI phục vụ chính mình và xuất khẩu tri thức ra thế giới.

Một thông tin cần biết, để thấy sự quan trọng của việc phát triển AI dữ liệu lớn: Đến năm 2031, quy mô GDP của Việt Nam vượt mốc 1.000 tỉ USD - theo dự báo của CEBR (Trung tâm Nghiên cứu Kinh tế và Kinh doanh - Centre for Economics and Business Research), một công ty tư vấn kinh tế độc lập có trụ sở tại London, Vương quốc Anh. Cụ thể, GDP Việt Nam đạt khoảng 1.021 tỉ USD, xếp thứ 3 trong khối ASEAN và thứ 24 trên thế giới. Dự báo này tương tự dự báo của Trung tâm Đổi mới sáng tạo Quốc gia (NIC) trong hội thảo do Bộ Tài chính, phối hợp cùng Cơ quan Hợp tác Quốc tế Nhật Bản (JICA) và Tập đoàn Boston Consulting Group (BCG) tổ chức ngày 12/6, trong đó có việc công bố Báo cáo "Nền kinh tế AI Việt Nam 2025". Đây cũng là báo cáo đầu tiên mang tính tổng thể, đánh giá hiện trạng, tiềm năng và định hướng phát triển của AI tại Việt Nam.

Theo đó, nếu Việt Nam phát triển AI hiệu quả, có thể đóng góp từ 120 - 130 tỉ USD vào GDP đến năm 2040. Trong ngắn và trung hạn, AI dự kiến thúc đẩy tăng trưởng GDP thêm khoảng 0,38% đến 1,1% mỗi năm. Tầm nhìn đến năm 2030: Giá trị kinh tế từ AI mang lại cho Việt Nam ước đạt khoảng 79,3 tỉ USD. Tầm nhìn đến năm 2040: AI dự kiến sẽ đóng góp tới 120 - 130 tỉ USD. Con số này tương đương với khoảng 25% quy mô nền kinh tế hiện tại, trở thành động lực then chốt giúp quy mô GDP tiến sát mốc 1.000 tỉ USD.

Thông tin này cho thấy tầm nhìn của Tổng Bí thư - Chủ tịch nước Tô Lâm về yêu cầu phát triển, đầu tư cho dữ liệu lớn, phát triển AI dữ liệu lớn.

Nổi bật
      Mới nhất
      Vai trò của dữ liệu lớn trong phát triển AI - Bài 2: Dữ liệu lớn và tham vọng đưa GDP Việt Nam chạm mốc 1.000 tỉ USD
      • Mặc định

      POWERED BY ONECMS - A PRODUCT OF NEKO