Startup Trung Quốc lần đầu vượt Nvidia trên RoboArena: Cuộc đua công nghệ mới
Spirit AI cho biết mô hình nền tảng dành cho trí tuệ hiện thân của họ là sản phẩm Trung Quốc đầu tiên đứng đầu bảng xếp hạng RoboArena toàn cầu.
Khi AI không còn chỉ tồn tại trong thế giới số mà bắt đầu bước vào thế giới thực, cuộc đua phát triển "bộ não" cho thế hệ robot tiếp theo đang trở thành mặt trận công nghệ mới giữa Trung Quốc và Mỹ.
Chỉ hai ngày sau khi gã khổng lồ chip Nvidia (Mỹ) ra mắt mô hình Cosmos 3, được thiết kế để giúp AI vật lý "suy nghĩ trước khi hành động", startup Spirit AI (Trung Quốc) bất ngờ thu hút sự chú ý.
Hôm 5/6, Spirit AI cho biết mô hình trí tuệ hiện thân Spirit v1.6 của họ đã trở thành sản phẩm Trung Quốc đầu tiên dẫn đầu bảng xếp hạng RoboArena toàn cầu.
Spirit v1.6 đạt 1.924 điểm trên bộ tiêu chuẩn đánh giá này, vượt qua Cosmos3-Nano-Policy của Nvidia (có 1.881 điểm). DreamZero, dự án AI khác của Nvidia được công bố hồi tháng 2, xếp thứ ba với 1.763 điểm.
RoboArena là bộ tiêu chuẩn đánh giá khả năng thực thi hành động trong thế giới thực của các mô hình AI dành cho robot. Hệ thống đánh giá này được phát triển với sự tham gia của Nvidia cùng các tổ chức nghiên cứu như Đại học Stanford và Đại học California -Berkeley (Mỹ).
Sự cạnh tranh quyết liệt này phản ánh một xu hướng lớn hơn: robot đang chính thức trở thành mặt trận tiếp theo của AI. Điều đó cũng được thể hiện qua việc Nvidia công bố hợp tác với Unitree Robotics (Trung Quốc) và Sharpa (Singapore) hồi đầu tuần.
Nvidia hợp tác với Unitree Robotics để cung cấp H2 Plus, phiên bản tiêu chuẩn hóa của robot hình người H2, cho các nhà nghiên cứu học thuật sử dụng. Unitree Robotics là một trong những nhà sản xuất robot hình người hàng đầu Trung Quốc.
Thân H2 Plus sẽ do Unitree Robotics sản xuất, bàn tay cơ khí đến từ Sharpa, còn “bộ não” tính toán của thiết bị sẽ do Nvidia cung cấp.
Nvidia tiết lộ các nhà nghiên cứu tại Đại học Stanford và Đại học California - San Diego (Mỹ) nằm trong số những đơn vị dự định sử dụng các robot này.
H2 Plus là phiên bản nâng cấp của robot hình người H2 cao gần 1,8 m của Unitree Robotics, được tích hợp phần cứng Jetson Thor.
Jetson Thor là nền tảng phần cứng AI dành cho robot và máy tự hành do Nvidia phát triển, được thiết kế để làm “bộ não” xử lý cho robot hình người, xe tự lái và các hệ thống AI vật lý. Hiểu đơn giản, Jetson Thor là máy tính AI siêu mạnh nhưng nhỏ gọn, có thể đặt trực tiếp bên trong robot để xử lý hình ảnh từ camera, hiểu môi trường xung quanh, điều khiển chuyển động, chạy mô hình AI và ra quyết định theo thời gian thực.
Sử dụng GPU (bộ xử lý đồ họa) Blackwell của Nvidia, Jetson Thor có khả năng xử lý AI mạnh hơn nhiều thế hệ Jetson trước đây.
Isaac GR00T, mô hình AI dành cho robot hình người của Nvidia, và các hệ thống mô phỏng là một phần gói thử nghiệm H2 Plus, theo thông cáo báo chí.
Ông Jensen Huang, Giám đốc điều hành Nvidia, từng dự đoán AI vật lý có thể trở thành thị trường trị giá hàng chục nghìn tỉ USD. Tháng trước, ông nói với các nhà đầu tư rằng kỳ vọng mảng robot sẽ tăng trưởng rất nhanh trong 5 năm tới.

Mô hình AI vật lý là gì?
Khác với các mô hình ngôn ngữ lớn được thiết kế để xử lý và tạo văn bản hoặc mã, mô hình AI vật lý cho phép máy móc như robot hình người, cánh tay robot hay xe tự hành nhận biết, hiểu và tương tác với thế giới thực.
AI vật lý dựa trên hai năng lực cốt lõi.
Thứ nhất là năng lực hành động, tức khả năng đưa ra quyết định dựa trên những gì robot quan sát được. Đây cũng là chỉ số chính được RoboArena đánh giá.
Thứ hai là năng lực mô phỏng thế giới, tức khả năng dự đoán điều gì sẽ xảy ra tiếp theo nếu robot thực hiện một hành động cụ thể.
Trước đây, hai chức năng này thường được phát triển riêng biệt, nhưng ngành công nghiệp đang hướng tới việc hợp nhất chúng.
Tháng 9/2025, các nhà nghiên cứu Trung Quốc đã giới thiệu mô hình thế giới chính sách, tích hợp khả năng mô phỏng thế giới và lập kế hoạch chuyển động trong cùng một kiến trúc.
Những công ty Trung Quốc nào đang dẫn đầu?
Trung Quốc không chỉ mạnh ở các mô hình hành động.
Trong bảng xếp hạng WorldArena - chuyên đánh giá các mô hình mô phỏng thế giới dành cho robot, vị trí số một hiện thuộc về WorldScape-0.2 của startup Manifold AI (Trung Quốc), đứng trên Cosmos-Predict 2.5 của Nvidia.
Ở hạng mục nhận thức môi trường, vị trí dẫn đầu thuộc về tập đoàn robot AgiBot (Trung Quốc) với mô hình GenieEnvisioner-Sim2.0-2B. Đây là hệ thống mô phỏng thế giới bằng video cho robot vừa được công bố tuần trước.
Ở hạng mục công cụ xử lý dữ liệu huấn luyện, startup DexForce (Trung Quốc) đang dẫn đầu với DSCFuncWorld. Đó là nền tảng được thiết kế để tối ưu hóa quá trình thu thập, xử lý và chuẩn bị dữ liệu dùng để huấn luyện AI cho robot.
Ngoài ra, WorldScape-0.2 của Manifold AI cũng đứng đầu bảng WorldScore, bộ tiêu chuẩn đánh giá khả năng tạo thế giới ảo từ mô tả văn bản, vượt qua WonderJourney - dự án hợp tác giữa Đại học Stanford (Mỹ) và Google.
Tiền đang đổ vào AI vật lý
Ngành AI vật lý đang thu hút lượng vốn đầu tư mạo hiểm khổng lồ.
Ngày 3/6, Spirit AI công bố vòng gọi vốn trị giá 1,5 tỉ nhân dân tệ (khoảng 222 triệu USD). Đây là vòng gọi vốn thứ tư của công ty chỉ trong vòng ba tháng, được xem là tốc độ huy động vốn thuộc hàng nhanh nhất ngành.
Cùng ngày 3/6, XYZ Embodied AI, startup được ươm tạo bởi Học viện Trí tuệ Nhân tạo Bắc Kinh, cho biết đã hoàn tất vòng gọi vốn pre-A và huy động được tổng cộng 1 tỉ nhân dân tệ chỉ trong 10 tháng để phát triển "bộ não robot" và các mô hình mô phỏng thế giới.
Manifold AI đã hoàn thành 5 vòng gọi vốn chỉ sau 10 tháng. Riêng vòng gần nhất vào tháng 4 mang về cho Manifold AI hàng trăm triệu nhân dân tệ.
Thách thức rất lớn
Dù dòng vốn đang đổ vào mạnh mẽ, ngành AI vật lý toàn cầu vẫn đối mặt với một thách thức rất lớn: dữ liệu.
Trong bài phát biểu hôm 2/6 tại triển lãm Computex 2026 ở Đài Loan, Jensen Huang nhận định: "Với robot và AI vật lý, dữ liệu là bài toán khó nhất". Tuy nhiên, Trung Quốc có thể đang nắm lợi thế đáng kể.
Năm ngoái, Alexandr Wang, Giám đốc AI của Meta, cho rằng Trung Quốc "ở vị thế rất thuận lợi về dữ liệu". Ông nói nhiều công ty Mỹ đang phải dựa vào dữ liệu từ Trung Quốc để huấn luyện các mô hình nền tảng cho robot.
Tại Trung Quốc, chính quyền ở các trung tâm công nghệ như Bắc Kinh và Thâm Quyến đã xây dựng các "nhà máy dữ liệu" được nhà nước hậu thuẫn nhằm thu thập dữ liệu phục vụ huấn luyện robot.
Cuộc đua AI giữa Mỹ - Trung mở rộng sang mặt trận mới
Nếu cuộc đua AI tạo sinh giai đoạn 2022 - 2025 xoay quanh chatbot và mô hình ngôn ngữ lớn, giai đoạn tiếp theo có thể là cuộc cạnh tranh để tạo ra những "bộ não" giúp robot hình người, xe tự hành và máy móc thông minh hoạt động trong thế giới thực.
Việc một startup Trung Quốc lần đầu vượt Nvidia trên bảng xếp hạng RoboArena cho thấy nước này không chỉ cạnh tranh về phần cứng hay sản xuất robot, mà đang bắt đầu thách thức vị thế dẫn đầu của Mỹ ở tầng AI cốt lõi dành cho robot.