Khủng hoảng GPU - kẻ thiếu người thừa!
Một cơn khan hiếm chip xử lí phục vụ cho AI đang lan khắp thế giới, nhưng dữ liệu thực tế lại kể một câu chuyện khác - phần lớn GPU được mua về chỉ để bỏ xó.

Mỗi lần nhắc đến GPU (Graphics Processing Unit - bộ xử lí đồ họa), các công ty AI ví von chúng như tài nguyên thời chiến: Đắt đỏ phi lý, mà có muốn mua cũng không có hàng. Nvidia tuyên bố đơn đặt hàng cho các nền tảng Blackwell và Vera Rubin đến năm 2027 đã đạt tới 1.000 tỉ USD. AMD cũng cháy hàng hoàn toàn. Nhưng dữ liệu thực tế lại kể một câu chuyện khá lạ lùng.
Theo báo cáo của Cast AI công bố tháng 4/2026, sau khi đo lường trực tiếp hiệu suất vận hành của khoảng 23.000 hệ thống máy chủ doanh nghiệp trên toàn cầu, mức sử dụng GPU trung bình chỉ đạt 5%. Có nghĩa là 95% năng lực tính toán đã được mua và thanh toán nhưng lại không được đưa vào ứng dụng.
Hóa ra cuộc khủng hoảng GPU không phải là bài toán nguồn cung, mà là câu đố phân bổ. VentureBeat gọi đây là "vấn đề 401 tỉ USD" của ngành AI.
Vòng xoáy tích trữ
Hiện tượng tích trữ GPU kì lạ này hóa ra có một lời giải thích dễ hiểu.
Thời gian chờ để nhận được GPU từ các nhà cung cấp dịch vụ điện toán đám mây kéo dài từ 36 đến 52 tuần. Khi có hàng, nhà cung cấp đưa ra điều kiện cứng: Nhận toàn bộ lô hàng ngay lập tức kèm hợp đồng cam kết nhiều năm, hoặc mất suất. Các doanh nghiệp, vì e ngại không mua được lần sau, phải kí hợp đồng trước cả khi có dự án AI để triển khai.
Với nhu cầu AI biến động mạnh, việc thiếu GPU giữa chừng có thể phá vỡ toàn bộ lộ trình sản phẩm. Hơn thế nữa, nhiều dự án hạ tầng AI thương mại vẫn đang trong giai đoạn xây dựng chứ chưa sẵn sàng đưa vào hoạt động. Kết quả là hàng nghìn doanh nghiệp phải giữ GPU cho các kịch bản "phòng khi cần," rút một lượng lớn phần cứng ra khỏi thị trường cho thuê. Điều này tạo ra tình trạng khan hiếm nhân tạo hoàn toàn tách biệt khỏi năng lực sản xuất chip thực tế.
Tình trạng thiếu hụt này đẩy giá thuê tăng theo. Tháng 1/2026, AWS tăng giá thuê GPU H200 khoảng 15%, phá vỡ xu hướng xuống giá liên tục của dịch vụ điện toán đám mây trong 20 năm qua. Theo SemiAnalysis, hợp đồng thuê GPU H100 một năm tăng gần 40% trong sáu tháng, từ 1,70 USD/giờ vào tháng 10/2025 lên 2,35 USD/giờ.
Giá thuê cho dòng GPU mới nhất, Blackwell, tăng 48% chỉ trong hai tháng, từ 2,75 USD lên 4,08 USD/giờ (Theo Ornn Compute Price Index). Và khi giá cho thuê tăng, giá trị của việc tích trữ GPU lại càng cao, khiến càng ít doanh nghiệp sẵn sàng nhả hàng. Và như thế, một hiện tượng vòng xoáy tự củng cố được hình thành.
Một cuộc chơi không công bằng
Nhưng câu chuyện giá GPU phức tạp hơn một kịch bản "tăng" một chiều. Thực tế, thị trường đang tách thành hai luồng chảy rất tách biệt.
Ở tầng phổ thông, giá GPU thực chất đang giảm. Khi các tập đoàn lớn chuyển sang chip thế hệ mới, GPU đời cũ trở thành hàng hóa thặng dư. Giá thuê H100 theo nhu cầu trên các nền tảng đám mây chuyên dụng đã giảm từ khoảng 7,57 USD/giờ cuối 2025 xuống còn 3,93 USD, thậm chí dưới 3 USD trên một số nền tảng. Chi phí cho A100, một GPU đời cũ hơn, đã ổn định quanh mức 1,92 USD/giờ. Đây là tin tốt cho các doanh nghiệp chỉ cần năng lực tính toán vừa phải, phù hợp cho tác vụ tinh chỉnh mô hình hoặc dự án quy mô tầm trung trở xuống.
Nhưng ở dòng chảy trên cùng, giá đang tăng mạnh. GPU thế hệ mới như H200 và Blackwell sở hữu băng thông bộ nhớ cao hơn gấp nhiều lần so với thế hệ cũ, khiến chúng được xem là yêu cầu bắt buộc cho việc huấn luyện mô hình nền tảng và suy luận quy mô lớn. Đây là phân khúc mà nguồn cung thực sự bị bóp nghẽn, giá thực sự leo thang, và là khung cửa hẹp cho các startup.
GPU được thiết kế để xử lý hàng triệu phép tính song song cùng lúc, khiến nó trở thành một công cụ không thể thiếu trong huấn luyện và vận hành các mô hình ngôn ngữ lớn. GPU càng mạnh, mô hình AI càng lớn và phản hồi càng nhanh.
Tại hội nghị công nghệ SuperAI ở Singapore đầu tháng 6 vừa qua, Carmen Li, Giám đốc điều hành của sàn giao dịch năng lực tính toán Compute Exchange, chia sẻ rằng công ty của họ thậm chí không thể đáp ứng nổi một nửa số đơn đặt hàng nhận được. Lý do là bởi các nhà vận hành trung tâm dữ liệu hiện nay chỉ ưu tiên cho các "ông lớn" - những khách hàng sẵn sàng mua sắm hàng nghìn thiết bị cùng lúc và cam kết hợp đồng dài hạn lên tới 5 năm.
Trong khi đó, các bên chỉ có nhu cầu thuê ngắn hạn theo năm gần như không có cơ hội cạnh tranh. Thực tế, "cơn khát" công nghệ này đang bị thâu tóm bởi các đại gia công nghệ: Bốn tập đoàn điện toán đám mây lớn nhất hiện chiếm tới 61% doanh thu mảng trung tâm dữ liệu của Nvidia, tăng mạnh so với mức 54% của quý trước.
Đối với các startup, điều này đồng nghĩa họ phải bước vào một cuộc chơi không công bằng. Theo khảo sát, chi phí vận hành AI của các startup trí tuệ nhân tạo, như các nền tảng lập trình Cursor, Replit hay Factory AI, đã tăng vọt từ 30% đến 40% chỉ trong nửa đầu năm 2026.
Do không đủ tiềm lực tài chính để ký các hợp đồng dài hạn, các công ty khởi nghiệp buộc phải chấp nhận mua theo giá thị trường tự do vốn luôn biến động thất thường. Chi phí đầu vào nhảy múa liên tục như vậy khiến các startup gần như không thể vẽ ra một kế hoạch tăng trưởng ổn định để thuyết phục các nhà đầu tư rót vốn.
Lối thoát mang tên Đông Nam Á
Khi cuộc chơi tại Mỹ và châu Âu dần trở thành "sân nhà" của các đại gia công nghệ, cuộc săn lùng năng lực tính toán đang tìm đến một mục tiêu mới: Đông Nam Á.
Carmen Li cho biết bà đến châu Á đầu tháng 6 vừa qua để tìm kiếm thêm nhà cung cấp điện toán đám mây tại Nhật Bản, Đài Loan, Hàn Quốc và Malaysia, bởi GPU không bị ràng buộc bởi địa lý như dầu mỏ hay điện, một doanh nghiệp thiếu năng lực tính toán tại địa phương có thể dựa vào máy chủ ở khu vực khác.

Theo hãng nghiên cứu BMI (BMI Country Risk And Industry Research), công suất trung tâm dữ liệu Đông Nam Á dự kiến tăng trưởng khoảng 11%/năm từ 2025 đến 2028, từ 11 GW lên 15 GW. Riêng Việt Nam đã công bố hơn 7 tỉ USD đầu tư vào hạ tầng AI, bao gồm dự án 2,1 tỉ USD tại Khu công nghiệp Tân Phú Trung (TP.HCM) với giai đoạn đầu dự kiến lắp đặt khoảng 28.000 GPU.
Khó khăn trước mắt là Đông Nam Á vẫn phải xếp sau Bắc Mỹ trong hàng đợi phân bổ GPU. Nhiều trung tâm dữ liệu đang phải xây dựng theo mô hình "vỏ linh hoạt", chuẩn bị hoàn thiện trước hệ thống điện và làm mát, để trống cơ sở chờ GPU tới sau.
Tuy nhiên, đây không phải là một rủi ro, mà là động thái "đi trước đón đầu". Nghịch lý thị trường GPU đang cho thấy: Khi cuộc "đua vũ trang" phần cứng trở nên ngột ngạt ở các quốc gia tiên phong AI, thì một cửa sổ cơ hội mới sẽ mở ra cho những nền kinh tế đã sẵn sàng đón làn sóng dịch chuyển năng lực tính toán.
Theo kịch bản của BMI, giai đoạn 2028–2030 có thể là thời điểm nút thắt chuỗi cung ứng GPU dần được nới lỏng. Khi đó, một Đông Nam Á với hạ tầng cơ sở vững vàng hơn sẽ không chỉ là một địa điểm thay thế, mà còn có thể trở thành một cực tăng trưởng mới của ngành AI toàn cầu.


