AI & Blockchain

Google hợp tác với Meta, nỗ lực làm suy yếu CUDA của Nvidia

Sơn Vân • 18/12/2025 10:20

Alphabet đang triển khai sáng kiến mới nhằm giúp chip Google chạy PyTorch hiệu quả hơn, làm suy yếu sự thống trị của Nvidia trên thị trường điện toán AI.

PyTorch là khung phần mềm AI (trí tuệ nhân tạo) được sử dụng rộng rãi nhất thế giới.

Nỗ lực này là một phần trong kế hoạch đầy tham vọng của Google nhằm biến TPU thành một lựa chọn thay thế khả thi cho GPU (bộ xử lý đồ họa) Nvidia. TPU là chip chuyên dụng được Google thiết kế riêng để tăng tốc các tác vụ học máy và AI.

Doanh số TPU đã trở thành động lực tăng trưởng quan trọng của mảng điện toán đám mây Google, khi hãng tìm cách chứng minh với nhà đầu tư rằng các khoản đầu tư vào AI đang mang lại lợi nhuận. Tuy nhiên, phần cứng thôi là chưa đủ để thúc đẩy việc áp dụng rộng rãi.

Sáng kiến mới của Google có tên nội bộ là TorchTPU, nhằm loại bỏ một rào cản lớn đã làm chậm quá trình sử dụng TPU, bằng cách khiến các chip này tương thích hoàn toàn và thân thiện hơn với lập trình viên, đặc biệt là những khách hàng xây dựng hạ tầng công nghệ dựa trên PyTorch, theo hãng tin Reuters. Google cũng đang cân nhắc mở mã nguồn một phần phần mềm để tăng tốc độ tiếp nhận từ phía khách hàng.

So với những nỗ lực trước đây nhằm hỗ trợ PyTorch trên TPU, Google đã dành nhiều trọng tâm tổ chức, nguồn lực và tầm quan trọng chiến lược hơn cho TorchTPU, trong bối cảnh nhu cầu tăng từ các công ty muốn sử dụng TPU nhưng coi hệ thống phần mềm là điểm nghẽn.

PyTorch, dự án mã nguồn mở được Meta Platforms hỗ trợ mạnh mẽ, là một trong những công cụ phổ biến nhất với các nhà phát triển xây dựng mô hình AI. Tại Thung lũng Silicon, rất ít lập trình viên viết từng dòng mã mà các chip của Nvidia, AMD hay Google sẽ thực sự thực thi. Thay vào đó, họ dựa vào công cụ như PyTorch, tập hợp các thư viện mã và khung phần mềm được viết sẵn, giúp tự động hóa nhiều tác vụ phổ biến trong phát triển phần mềm AI.

Ra mắt năm 2016, lịch sử của PyTorch gắn liền chặt chẽ với CUDA - phần mềm mà một số nhà phân tích Phố Wall coi là lá chắn mạnh nhất của Nvidia trước các đối thủ.

CUDA ra đời năm 2003 như một cách để lập trình chip đồ họa. Ngày nay, CUDA đã phát triển thành một hệ sinh thái phần mềm đa tầng, ngôn ngữ, thư viện, trình biên dịch, hệ thống suy luận, mà hầu hết công ty AI đều dựa vào. Thành công đó đi kèm với một cái giá: Hầu hết ngành công nghiệp hiện nay đều được tối ưu hóa dựa trên phần cứng của Nvidia. CUDA ràng buộc các tác vụ AI với GPU của Nvidia. Điều đó rất tốt cho Nvidia, nhưng lại hạn chế sâu sắc với tất cả nhà cung cấp khác.

GPU được sử dụng để xây dựng, huấn luyện và vận hành mô hình AI cùng các sản phẩm liên quan. Ban đầu, GPU được thiết kế để xử lý các tác vụ đồ họa phức tạp, như kết xuất hình ảnh 3D trong game hoặc phần mềm thiết kế. Song ngày nay, GPU được sử dụng rộng rãi trong nhiều lĩnh vực vượt xa đồ họa, đặc biệt là AI và học máy. Lý do là vì GPU có kiến trúc xử lý song song với hàng nghìn lõi tính toán nhỏ, cho phép thực hiện đồng thời rất nhiều phép tính ma trận và vector - những thứ mà AI và mô hình ngôn ngữ cần để huấn luyện và suy luận.

Google hợp tác với Meta, nỗ lực làm suy yếu CUDA của Nvidia — Google triển khai sáng kiến mới TorchTPU với sự hỗ trợ của Meta, nhằm loại bỏ một rào cản lớn đã làm chậm quá trình sử dụng TPU - Ảnh: Reuters

Các kỹ sư Nvidia đã dành nhiều năm để đảm bảo phần mềm phát triển bằng PyTorch chạy nhanh và hiệu quả nhất trên chip của họ. Trái lại, Google từ lâu đã sử dụng Jax cho đội ngũ phát triển nội bộ và TPU dùng XLA để tối ưu hiệu năng. Phần lớn hệ sinh thái phần mềm AI và tối ưu hiệu suất của Google được xây dựng xoay quanh Jax, khiến khoảng cách giữa cách Google dùng chip của mình và cách khách hàng muốn dùng ngày càng lớn.

Jax là thư viện phần mềm mã nguồn mở của Google dùng cho tính toán số và học máy, được thiết kế để viết và chạy các mô hình AI nhanh, gọn và tối ưu cao, đặc biệt trên TPU và GPU.

XLA (Accelerated Linear Algebra) là trình biên dịch hiệu năng cao do Google phát triển để tối ưu và tăng tốc các phép toán học trong các mô hình AI, đặc biệt trên TPU và GPU.

Người phát ngôn Google Cloud, đơn vị đám mây của Google, không bình luận chi tiết về dự án, nhưng xác nhận với Reuters rằng động thái này nhằm mang lại nhiều lựa chọn hơn cho khách hàng.

“Chúng tôi đang chứng kiến nhu cầu tăng mạnh với cả hạ tầng TPU lẫn GPU của mình. Trọng tâm của chúng tôi là cung cấp sự linh hoạt và quy mô mà các nhà phát triển cần, bất kể họ lựa chọn xây dựng trên phần cứng nào”, người phát ngôn Google Cloud nói.

TPU cho khách hàng

Trong nhiều năm, Google chỉ dành phần lớn TPU của mình cho mục đích sử dụng nội bộ. Điều này thay đổi vào năm 2022, khi Google Cloud vận động thành công để nắm quyền quản lý mảng bán TPU. Động thái đó giúp tăng mạnh lượng TPU phân bổ cho Google Cloud. Khi sự quan tâm của khách hàng với AI ngày càng lớn, Google đã tận dụng cơ hội bằng cách tăng sản xuất và bán TPU cho khách hàng bên ngoài.

Tuy nhiên, sự không tương thích giữa PyTorch (khung phần mềm mà phần lớn các nhà phát triển AI trên thế giới sử dụng) và Jax (khung mà TPU hiện được tối ưu tốt nhất) khiến hầu hết lập trình viên khó có thể áp dụng chip AI Google và đạt hiệu năng ngang GPU Nvidia, trừ khi bỏ ra thêm thời gian và chi phí kỹ thuật đáng kể. Trong cuộc đua AI diễn ra với tốc độ cao, điều này là một bất lợi lớn.

Nếu thành công, sáng kiến TorchTPU của Google có thể giúp giảm đáng kể chi phí chuyển đổi cho các công ty muốn tìm giải pháp thay thế GPU Nvidia. Sự thống trị của Nvidia không chỉ đến từ phần cứng mà còn từ hệ sinh thái phần mềm CUDA, được tích hợp sâu trong PyTorch và trở thành phương thức mặc định mà nhiều công ty sử dụng để huấn luyện cũng như chạy các mô hình AI quy mô lớn.

Theo các nguồn tin, khách hàng doanh nghiệp nói với Google rằng TPU khó áp dụng cho các tác vụ AI vì trước đây thường buộc lập trình viên phải chuyển sang Jax, được Google ưa chuộng nội bộ, thay vì PyTorch vốn đã rất phổ biến.

Hợp tác với Meta

Để đẩy nhanh quá trình phát triển, Google đang hợp tác chặt chẽ với Meta Platforms (công ty tạo ra và quản lý PyTorch), theo các nguồn tin. Hai gã khổng lồ công nghệ Mỹ đã thảo luận về các thỏa thuận để Meta Platforms tiếp cận nhiều TPU hơn, trang The Information đưa tin.

Các đề xuất ban đầu dành cho Meta Platforms được thiết kế dưới dạng dịch vụ do Google quản lý. Trong đó, khách hàng như Meta Platforms cài đặt TPU, vốn được thiết kế để chạy phần mềm và mô hình AI của Google, còn gã khổng lồ tìm kiếm Mỹ cung cấp hỗ trợ vận hành.

Meta Platforms có lợi ích chiến lược trong việc tham gia phát triển phần mềm giúp chạy TPU dễ dàng hơn, nhằm mục đích giảm chi phí suy luận và đa dạng hóa cơ sở hạ tầng AI của mình khỏi GPU Nvidia để giành được lợi thế đàm phán

Công ty mẹ Facebook từ chối bình luận.

Năm nay, Google đã bắt đầu bán TPU trực tiếp cho các trung tâm dữ liệu của khách hàng, thay vì chỉ giới hạn trong đám mây của mình. Chuyên gia kỳ cựu Amin Vahdat vừa được bổ nhiệm làm người đứng đầu mảng hạ tầng AI Google trong tháng 12 và sẽ báo cáo trực tiếp cho Giám đốc điều hành Sundar Pichai.

Google cần hạ tầng đó không chỉ để vận hành các sản phẩm AI riêng, gồm cả Gemini và tìm kiếm tích hợp AI, mà còn để cung cấp cho khách hàng của Google Cloud, đơn vị bán quyền truy cập TPU cho công ty khác như Anthropic và OpenAI.

Sơn Vân