Nvidia: Vera Rubin gồm 1,3 triệu linh kiện, hiệu năng trên mỗi watt cao gấp 10 lần
Báo cáo tài chính quý 4/2025 của Nvidia hôm 25.2 có thể sẽ cho thấy doanh số bùng nổ từ hệ thống rack-scale hiện tại. Song, mọi ánh mắt đang hướng về Vera Rubin, hệ thống AI tiếp theo của Nvidia, dự kiến ra mắt cuối năm nay.
Rack-scale là một hệ thống máy tính được thiết kế và tối ưu hóa ở cấp độ toàn bộ rack, thay vì chỉ ở cấp độ từng máy chủ riêng lẻ. Rack là tủ kim loại tiêu chuẩn trong trung tâm dữ liệu, chứa và sắp xếp các thiết bị máy tính như máy chủ, GPU, thiết bị mạng và nguồn điện. Trong kiến trúc rack-scale, toàn bộ rack được xem như một “siêu máy tính thống nhất”, nơi mọi thành phần như GPU, CPU, bộ nhớ, mạng và làm mát được thiết kế để hoạt động cùng nhau như một hệ thống duy nhất.
Theo Nvidia, Vera Rubin được cấu thành từ 1,3 triệu linh kiện, sẽ mang lại hiệu năng trên mỗi watt cao hơn gấp 10 lần so với hệ thống trước đó là Grace Blackwell. Đây là bước tiến quan trọng trong bối cảnh mức tiêu thụ năng lượng là một trong những vấn đề then chốt với quá trình xây dựng hạ tầng AI.
Hãng tin CNBC đã có cái nhìn đầu tiên về Vera Rubin tại trụ sở Nvidia ở thành phố Santa Clara, bang California, Mỹ.
Nvidia cho biết Vera Rubin là một mạng lưới phức tạp gồm các linh kiện được cung cấp từ khắp nơi trên thế giới. Các chip lõi gồm 72 GPU (bộ xử lý đồ họa) Rubin và 36 CPU (bộ xử lý trung tâm) Vera, chủ yếu do TSMC sản xuất. TSMC (Đài Loan) là hãng sản xuất chip theo hợp đồng số 1 thế giới.
Các linh kiện khác, từ hệ thống làm mát bằng chất lỏng đến nguồn điện và khay tính toán, đến từ hơn 80 nhà cung cấp tại ít nhất 20 quốc gia, gồm cả Trung Quốc, Việt Nam, Thái Lan, Mexico, Israel và Mỹ.
Một thách thức lớn mà Nvidia phải đối mặt là chi phí bộ nhớ tăng vọt do tình trạng thiếu hụt toàn cầu, xuất phát từ nhu cầu AI tăng mạnh.
Dion Harris, lãnh đạo bộ phận hạ tầng AI của Nvidia, nói công ty đã truyền đạt cho các nhà cung cấp những dự báo rất chi tiết về nhu cầu linh kiện, nhằm giúp họ chuẩn bị đủ nguồn cung và đảm bảo quá trình sản xuất không bị gián đoạn.
“Nvidia đang phối hợp để đảm bảo mọi thứ chúng tôi xuất xưởng đều được chuỗi cung ứng đáp ứng. Chúng tôi đang ở trong tình trạng rất tốt”, ông nói.
Đây là thời điểm quan trọng với Nvidia, công ty đang thống trị thị trường chip AI nhưng phải đối mặt sự cạnh tranh ngày càng tăng từ AMD, cũng như các chip tùy chỉnh của Broadcom và TPU do Google tự phát triển. Nvidia có kế hoạch tạo ra lượng hạ tầng AI trị giá tới 500 tỉ USD tại Mỹ trước năm 2029, gồm cả việc sản xuất các GPU Blackwell tại những nhà máy mới của TSMC ở bang Arizona.
Grace Blackwell bắt đầu được sản xuất vào năm 2024 và đã thay đổi hoàn toàn mức độ sức mạnh tính toán có thể đạt được trong một hệ thống duy nhất. Vera Rubin, dự kiến được giao vào nửa cuối năm 2026, sẽ đưa Nvidia lên một tầm cao mới. Jensen Huang, Giám đốc điều hành Nvidia, hồi tháng 1 công bố rằng Vera Rubin đã bước vào giai đoạn sản xuất hàng loạt.
Nhà phân tích Daniel Newman của công ty nghiên cứu Futurum Group cho biết: “Những hệ thống này tích hợp toàn bộ khả năng tính toán, mạng, cáp và cả làm mát. Tất cả được kết hợp trong một rack duy nhất để tiết kiệm năng lượng và đạt hiệu suất cao nhất. Đây không phải cách máy chủ từng được xây dựng trước đây”.
Tuần trước, Meta Platforms thông báo kế hoạch sử dụng Vera Rubin trong các trung tâm dữ liệu của mình vào năm 2027. Danh sách khách hàng khác của Nvidia dự kiến gồm OpenAI, Anthropic, Amazon, Google và Microsoft. Vera Rubin được sản xuất tại Mỹ và những nơi khác, gồm cả Đài Loan và một nhà máy mới của Foxconn ở Mexico, nặng gần 2 tấn và chứa khoảng 1.300 vi mạch, so với 864 vi mạch trong Grace Blackwell.

Hiệu năng trên mỗi watt cao hơn gấp 10 lần
Vera Rubin là hệ thống mô-đun đơn giản hơn, được thiết kế để dễ dàng lắp đặt và sửa chữa. Mỗi siêu chip có thể được trượt ra khỏi một trong 18 khay tính toán của rack chỉ sau vài giây. Trong hệ thống Grace Blackwell, các linh kiện này được hàn cố định vào bảng mạch.
Nvidia cho biết Vera Rubin sẽ tiêu thụ điện năng nhiều hơn khoảng gấp đôi so với Grace Blackwell, nhưng vẫn hiệu quả hơn rất nhiều nhờ mức hiệu năng trên mỗi watt cao hơn gấp 10 lần.
Jordan Klein, nhà phân tích tại hãng Mizuho Securities, bình luận: "Điều quan trọng nhất là bạn có thể tạo ra bao nhiêu token trên mỗi đơn vị điện năng tiêu thụ. Bạn càng tối ưu được điều đó, lợi nhuận trên mỗi USD đầu tư sẽ càng cao”.
Trong AI, token là đơn vị cơ bản của văn bản, có thể là một từ, một phần của từ hoặc một ký tự. Đây là cách đo lượng công việc mà mô hình AI thực hiện.
Vera Rubin cũng là hệ thống đầu tiên của Nvidia được làm mát hoàn toàn bằng chất lỏng. Theo Dion Harris, điều này giúp các trung tâm dữ liệu tiêu thụ “ít nước hơn nhiều” so với phương pháp làm mát bay hơi truyền thống.
Nvidia không công bố giá Vera Rubin. Thế nhưng, Futurum Group ước tính giá Vera Rubin sẽ tăng khoảng 25% so với Grace Blackwell, đưa mức giá mỗi hệ thống này lên khoảng 3,5 triệu đến 4 triệu USD.
Trong khi các khách hàng lớn tìm cách giảm phụ thuộc vào Nvidia, nhiều công ty cũng đang trang bị cho máy chủ AI bằng chip tự phát triển. CNBC đã đến thăm một trung tâm dữ liệu của Amazon Web Services vào tháng 10.2025, nơi chứa đầy các siêu máy chủ sử dụng chip Trainium 2 của Amazon. Trong khi đó, các trung tâm dữ liệu của Google được trang bị các rack chứa TPU do chính công ty phát triển.
Cuối năm nay, Nvidia sẽ đối mặt với sự cạnh tranh đáng kể khi AMD ra mắt hệ thống rack-scale đầu tiên của mình mang tên Helios.
Hôm 24.2, AMD cho biết đã ký thỏa thuận bán tới 60 tỉ USD chip AI cho Meta Platforms trong 5 năm, tương tự thương vụ bom tấn với OpenAI hồi tháng 10.2025. Cụ thể hơn, AMD sẽ cung cấp cho Meta Platforms lượng chip AI tương đương công suất 6 gigawatt, bắt đầu với 1 gigawatt từ sản phẩm chủ lực Instinct MI450 sắp ra mắt của công ty vào nửa cuối năm 2026. Bà Lisa Su, Giám đốc điều hành AMD, tiết lộ điều này tại một buổi họp báo.
Ngoài chip đồ họa AMD, Meta Platforms có kế hoạch mua CPU, gồm cả phiên bản được tùy chỉnh theo nhu cầu của gã khổng lồ mạng xã hội này. Lisa Su cho biết CPU tùy chỉnh sẽ được tối ưu để mang lại hiệu năng mạnh mẽ, đồng thời giữ mức tiêu thụ năng lượng thấp nhất có thể. Thỏa thuận sẽ gồm cả hai thế hệ CPU của AMD.
“Bạn sẽ thấy nhu cầu tăng mạnh vì khách hàng muốn nhiều công suất hơn, nhưng cũng muốn một nguồn cung thứ hai đáng tin cậy để tạo thế cân bằng với Nvidia”, Jordan Klein nhận định.
Về các đối thủ cạnh tranh, Dion Harris cho biết: “Tôi rất tôn trọng bất kỳ ai muốn thử sức, nhưng đây chắc chắn không phải là một nhiệm vụ đơn giản”.