Từ Nemotron-Personas-Vietnam đến bài toán chủ quyền AI Việt Nam
Việc FPT và Nvidia công bố bộ dữ liệu mở Nemotron-Personas-Vietnam và nhanh chóng thu hút sự quan tâm của cộng đồng AI Việt Nam và quốc tế.

Đằng sau một tập dữ liệu là câu chuyện lớn hơn về cách trí tuệ nhân tạo hiểu con người Việt Nam, về chủ quyền dữ liệu trong kỉ nguyên số và về cơ hội để các startup, trường đại học, nhóm nghiên cứu trong nước tiếp cận nguồn lực vốn trước đây chỉ thuộc về các tập đoàn công nghệ khổng lồ.
AI biết tiếng Việt nhưng chưa hiểu người Việt thì chưa thể là AI Việt Nam
Trong những năm gần đây, các mô hình trí tuệ nhân tạo đã đạt những bước tiến vượt bậc trong việc xử lí tiếng Việt. Người dùng có thể trò chuyện với chatbot, dịch tài liệu, viết báo cáo hay tìm kiếm thông tin bằng tiếng Việt với chất lượng ngày càng tốt. Tuy nhiên, giữa việc “biết tiếng Việt” và “hiểu người Việt” vẫn tồn tại một khoảng cách rất lớn.
Một mô hình AI có thể hiểu ngữ pháp, từ vựng và ngữ nghĩa của ngôn ngữ. Nhưng để thực sự phục vụ người Việt Nam, nó cần hiểu nhiều hơn thế. Nó phải nhận biết được sự khác biệt trong cách diễn đạt giữa miền Bắc, miền Trung và miền Nam; hiểu được những khác biệt về hành vi, nhu cầu và trình độ tiếp nhận thông tin giữa học sinh, công nhân, nông dân, công chức hay chuyên gia công nghệ; đồng thời phải thích nghi với các đặc trưng văn hóa, xã hội và kinh tế của từng nhóm người dùng.
Đó chính là lí do việc FPT và Nvidia công bố bộ dữ liệu Nemotron-Personas-Vietnam được nhiều chuyên gia đánh giá là một dấu mốc đáng chú ý. Phiên bản phát hành công khai của Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng khoảng 900.000 persona tiếng Việt với tổng dung lượng 118 triệu token. Mục tiêu không chỉ là tạo ra thêm dữ liệu tiếng Việt, mà là giúp AI phản ánh tốt hơn đời sống, văn hóa, lực lượng lao động và thực tiễn kinh tế Việt Nam.
Nói cách khác, Nemotron-Personas-Vietnam là nỗ lực nhằm xây dựng một bức chân dung số đa dạng hơn về người Việt. Khi được huấn luyện trên những dữ liệu như vậy, AI không chỉ biết trả lời bằng tiếng Việt mà còn có khả năng hiểu rõ hơn đối tượng mà nó đang phục vụ.
Trong cuộc đua AI hiện nay, lợi thế không còn nằm hoàn toàn ở việc ai sở hữu mô hình lớn nhất. Câu hỏi ngày càng quan trọng là mô hình đó được nuôi dưỡng bằng dữ liệu nào và liệu dữ liệu đó có phản ánh đúng xã hội mà nó phục vụ hay không.
Sovereign AI: Khi dữ liệu trở thành vấn đề chủ quyền
Nếu dầu mỏ từng được xem là nguồn tài nguyên chiến lược của thế kỉ XX thì dữ liệu đang trở thành tài nguyên chiến lược của thế kỉ XXI. Chính vì vậy, cùng với sự phát triển của AI, khái niệm Sovereign AI (chủ quyền AI) ngày càng được nhắc đến nhiều hơn trên thế giới.
Theo Nvidia, Sovereign AI là năng lực của một quốc gia trong việc phát triển và vận hành các hệ thống AI dựa trên dữ liệu, hạ tầng, nhân lực và hệ sinh thái của chính mình. Đây không phải là xu hướng khép kín hay tự cô lập khỏi thế giới, mà là nỗ lực bảo đảm quyền tự quyết đối với những năng lực công nghệ có ý nghĩa chiến lược.
Khái niệm này đang được nhiều quốc gia theo đuổi. Châu Âu, vốn từng phụ thuộc đáng kể vào các nền tảng công nghệ của Mỹ, hiện coi Sovereign AI là một ưu tiên chính sách. Mục tiêu là bảo đảm rằng dữ liệu của công dân châu Âu, các mô hình AI quan trọng và hạ tầng tính toán chiến lược không hoàn toàn nằm ngoài tầm kiểm soát của khu vực.
Trong bối cảnh đó, dữ liệu không còn đơn thuần là nguyên liệu để huấn luyện thuật toán. Dữ liệu phản ánh hành vi, tri thức, văn hóa, nhu cầu và cả bản sắc của một cộng đồng. Nếu lãnh thổ vật lí được xác lập bằng đường biên trên bản đồ, thì trong không gian số, dữ liệu có thể được xem như một dạng biên giới mới.
Chính vì vậy, câu chuyện dữ liệu ngày nay không chỉ là câu chuyện công nghệ. Nó còn là câu chuyện về quyền đại diện. AI sẽ nhìn nhận người Việt Nam như thế nào? Nó sẽ hiểu những giá trị văn hóa, nhu cầu xã hội và thực tiễn kinh tế của Việt Nam ra sao? Câu trả lời phụ thuộc rất lớn vào dữ liệu được sử dụng để huấn luyện nó.
Một số học giả quốc tế gọi nguy cơ phụ thuộc quá mức vào các nền tảng và thuật toán do các tập đoàn công nghệ toàn cầu kiểm soát là “algorithmic colonialism” (tạm dịch là thực dân hóa thuật toán). Khái niệm này không hàm ý một sự áp đặt trực tiếp, mà nhấn mạnh nguy cơ bất cân xứng quyền lực khi dữ liệu, hạ tầng và công nghệ cốt lõi tập trung vào tay một số chủ thể rất lớn.
Đối với Việt Nam, việc xây dựng các nguồn dữ liệu phản ánh chính xác con người và xã hội Việt Nam vì thế không chỉ là nhu cầu phát triển AI. Đó còn là một phần của năng lực tự chủ trong kỉ nguyên số.
Giá trị lớn nhất của Nemotron-Personas-Vietnam nằm ở việc dữ liệu được mở
Nếu nhìn từ góc độ hệ sinh thái đổi mới sáng tạo, điều đáng chú ý nhất ở Nemotron-Personas-Vietnam có lẽ không phải quy mô của bộ dữ liệu mà là quyết định phát hành mở.
Trong lĩnh vực AI, dữ liệu chất lượng cao thường là tài sản đắt đỏ nhất. Các startup nhỏ, nhóm nghiên cứu đại học hay doanh nghiệp công nghệ mới thành lập thường không thiếu ý tưởng. Điều họ thiếu là dữ liệu sạch, được chuẩn hóa và đủ lớn để huấn luyện hoặc tinh chỉnh mô hình.
Việc thu thập, làm sạch và gắn nhãn dữ liệu có thể tiêu tốn hàng tháng, thậm chí hàng năm làm việc cùng nguồn kinh phí đáng kể. Đó là lí do tại sao nhiều lợi thế trong cuộc đua AI thường thuộc về các tập đoàn công nghệ sở hữu nguồn dữ liệu khổng lồ.
Khi một bộ dữ liệu được công bố theo hướng mở và cho phép sử dụng rộng rãi, rào cản gia nhập sẽ giảm xuống đáng kể. Startup có thể tập trung nguồn lực vào phát triển sản phẩm thay vì phải xây dựng mọi thứ từ đầu. Các trường đại học có thể sử dụng cùng một chuẩn dữ liệu để nghiên cứu và so sánh kết quả. Các nhóm nghiên cứu độc lập có cơ hội tham gia vào những dự án trước đây vượt quá khả năng tiếp cận của họ.
Lịch sử phát triển công nghệ đã nhiều lần chứng minh sức mạnh của các nền tảng mở. Linux góp phần tạo nên nền móng cho hạ tầng Internet hiện đại. Các kho mã nguồn mở thúc đẩy làn sóng đổi mới phần mềm toàn cầu. Trong lĩnh vực AI, các cộng đồng nguồn mở đang đóng vai trò ngày càng quan trọng trong việc phổ cập tri thức và công nghệ.
Ở góc độ đó, Nemotron-Personas-Vietnam có thể được xem như một phần của hạ tầng mềm cho hệ sinh thái AI Việt Nam. Nó không tạo ra ngay một mô hình AI đột phá. Nhưng nó giúp mở rộng khả năng tiếp cận nguồn lực cho hàng nghìn nhà nghiên cứu, kỹ sư và doanh nghiệp.
Trong dài hạn, giá trị lớn nhất của một bộ dữ liệu như vậy không nằm ở số lượng bản ghi hay vị trí trên các bảng xếp hạng. Giá trị lớn nhất nằm ở việc nó góp phần xây dựng năng lực nội sinh cho hệ sinh thái AI Việt Nam. Bởi trong kỷ nguyên AI, quốc gia nào sở hữu được dữ liệu phản ánh chính con người mình, quốc gia đó sẽ có nhiều cơ hội hơn để định hình tương lai số của chính mình.
Nemotron-Personas-Vietnam vì thế không chỉ là một tập dữ liệu. Nó là lời nhắc rằng cuộc cạnh tranh AI cuối cùng không chỉ xoay quanh thuật toán hay siêu máy tính. Đó còn là cuộc cạnh tranh về quyền được đại diện, quyền được thấu hiểu và quyền được kể câu chuyện của chính mình trong thế giới số.

