Cuộc sống số

AI lai là tương lai thay vì AI cục bộ

Sơn Vân 15/06/2026 19:39

AI cục bộ đang nổi lên như một hướng đi mới giúp các hãng công nghệ giảm gánh nặng hạ tầng, trong bối cảnh chi phí suy luận ngày càng tăng.

Vài năm qua, cuộc đua AI được đo bằng những con số khổng lồ. Các hãng công nghệ chi hàng chục tỉ USD để mua GPU (bộ xử lý đồ họa), xây trung tâm dữ liệu và huấn luyện những mô hình AI ngày càng mạnh hơn. Song đến năm 2026, một trong những thách thức lớn nhất của ngành là làm sao vận hành AI với hiệu quả kinh tế cao nhất.

Nhiều lãnh đạo công nghệ bắt đầu nhận ra rằng chi phí thực sự của AI không nằm ở quá trình huấn luyện, mà ở việc phục vụ hàng triệu và hàng tỉ truy vấn mỗi ngày. Giới phân tích gọi đây là kỷ nguyên của "kinh tế suy luận", nơi mỗi câu hỏi từ người dùng đều tiêu tốn tài nguyên tính toán và tạo ra hóa đơn phải thanh toán.

Trong bối cảnh đó, một ý tưởng ngày càng được nhắc tới nhiều hơn: Thay vì gửi mọi yêu cầu lên đám mây, tại sao không đưa AI xuống thiết bị của người dùng? Liệu AI cục bộ, chạy trực tiếp trên smartphone, máy tính cá nhân hoặc thiết bị biên, có thể giúp các hãng công nghệ giải bài toán chi phí ngày càng tăng?

Câu trả lời ngắn gọn là có, nhưng chỉ với một nửa vấn đề.

AI cục bộ có giúp các Big Tech giải bài toán chi phí ngày càng tăng
AI cục bộ là một hướng đi mới giúp các hãng công nghệ giảm gánh nặng hạ tầng, song không phải giải pháp vạn năng. Ảnh: SV

Chi phí huấn luyện không phải thứ AI cục bộ có thể giải quyết

Để hiểu rõ điều này, trước hết cần phân biệt hai loại chi phí lớn nhất trong AI hiện đại.

Loại đầu tiên là chi phí huấn luyện. Đây là khoản tiền dùng để xây dựng mô hình AI từ đầu, gồm mua GPU, điện năng, hạ tầng mạng, dữ liệu và đội ngũ nghiên cứu.

Một nghiên cứu của Epoch AI cho thấy chi phí huấn luyện các mô hình AI hàng đầu đã tăng rất nhanh trong những năm gần đây. Nếu xu hướng hiện tại tiếp tục, những lần huấn luyện mô hình AI lớn nhất thế giới có thể tiêu tốn hơn 1 tỉ USD trước năm 2027.

Epoch AI là tổ chức nghiên cứu độc lập chuyên phân tích sự phát triển của AI, đặc biệt là các xu hướng liên quan đến năng lực tính toán, chi phí huấn luyện mô hình, dữ liệu của AI.

Đây là lý do vì sao những mô hình AI tiên tiến như GPT, Gemini, Claude hay hệ thống tương đương chỉ được phát triển bởi một số ít công ty sở hữu nguồn lực tài chính khổng lồ.

Đó cũng là lý do AI cục bộ không thể thay thế AI trên đám mây trong giai đoạn huấn luyện. Không chiếc smartphone hay laptop nào có thể đảm nhiệm công việc cần tới hàng chục nghìn GPU hoạt động đồng thời trong nhiều tuần hoặc nhiều tháng.

Nói cách khác, nếu mục tiêu là giảm chi phí huấn luyện mô hình nền tảng, AI cục bộ gần như không phải lời giải.

Vấn đề thật sự nằm ở chi phí suy luận

Điều thú vị là từ năm 2025 đến nay, trọng tâm của ngành AI đã thay đổi đáng kể. Trước đây, các công ty thường lo lắng về chi phí huấn luyện. Hiện nay, ngày càng nhiều chuyên gia cho rằng chi phí suy luận mới là "quái vật ngốn tiền" thực sự.

Suy luận là quá trình mô hình AI tạo ra câu trả lời sau khi người dùng gửi yêu cầu. Khác với huấn luyện mô hình AI, quá trình suy luận diễn ra liên tục. Mỗi câu hỏi gửi tới chatbot, mỗi đoạn văn cần tóm tắt, mỗi bức ảnh cần chỉnh sửa hay mỗi dòng mã được AI gợi ý đều tốn chi phí.

Nhiều dấu hiệu cho thấy trọng tâm chi tiêu AI đang chuyển từ huấn luyện sang suy luận. Deloitte dự báo các tác vụ suy luận sẽ chiếm khoảng 2/3 tổng khối lượng tính toán AI năm 2026, trong khi Gartner dự báo chi tiêu cho các dịch vụ đám mây phục vụ suy luận sẽ vượt chi tiêu cho huấn luyện lần đầu tiên vào năm nay.

Đó là lý do các giám đốc tài chính bắt đầu đặt câu hỏi khó cho các đội ngũ AI: Liệu có cách nào giảm chi phí trên mỗi truy vấn hay không?

Deloitte là một trong những công ty tư vấn và kiểm toán lớn nhất thế giới, thuộc nhóm Big Four, bên cạnh PwC, Ernst & Young, KPMG.

Gartner là công ty nghiên cứu và tư vấn công nghệ hàng đầu thế giới, chuyên cung cấp các báo cáo, dự báo và khuyến nghị cho doanh nghiệp, chính phủ và nhà đầu tư về các xu hướng công nghệ và kinh doanh.

AI cục bộ xuất hiện như một giải pháp kinh tế

Về bản chất, AI cục bộ chuyển một phần công việc từ trung tâm dữ liệu sang thiết bị của người dùng. Thay vì gửi mọi yêu cầu lên máy chủ, một số tác vụ được xử lý ngay trên smartphone hoặc máy tính. Lợi ích kinh tế của cách tiếp cận này khá rõ ràng.

Nếu một mô hình AI chạy trên thiết bị cá nhân, công ty không còn phải trả tiền GPU trong trung tâm dữ liệu cho mỗi truy vấn. Sau khi người dùng mua thiết bị, việc xử lý dữ liệu sẽ được thực hiện ngay trên đó, nên doanh nghiệp không phải gánh thêm nhiều chi phí tính toán cho mỗi lần sử dụng.

Đây là lý do ngày càng nhiều hãng công nghệ đầu tư mạnh vào AI chạy trên thiết bị. Apple là ví dụ điển hình. Hệ thống Apple Intelligence hiện sử dụng kiến trúc lai, trong đó các tác vụ đơn giản được xử lý trực tiếp trên iPhone, iPad hoặc Mac, còn những yêu cầu phức tạp hơn mới được chuyển tới Private Cloud Compute.

Private Cloud Compute là hệ thống điện toán đám mây riêng do Apple phát triển để xử lý những tác vụ AI vượt quá khả năng của iPhone, iPad hoặc Mac, đồng thời vẫn duy trì các tiêu chuẩn bảo mật tương tự như trên thiết bị cá nhân.

Nvidia, Qualcomm và nhiều công ty bán dẫn khác cũng đang thúc đẩy mạnh khái niệm AI biên, tức AI hoạt động ngay tại nơi dữ liệu được tạo ra thay vì phụ thuộc hoàn toàn vào đám mây.

Trong bối cảnh chi phí AI ngày càng bị soi xét, xu hướng này càng trở nên hấp dẫn.

AI cục bộ không phải giải pháp vạn năng

Sẽ là sai lầm nếu cho rằng tương lai thuộc hoàn toàn về AI cục bộ. Vấn đề nằm ở năng lực tính toán.

Những mô hình AI mạnh nhất thế giới hiện nay vẫn cần lượng tài nguyên tính toán vượt xa khả năng của smartphone hoặc laptop. Các tác vụ như nghiên cứu chuyên sâu, lập trình phức tạp, xử lý ngữ cảnh cực dài hay vận hành các tác tử AI vẫn phù hợp với hạ tầng đám mây hơn nhiều.

Tác tử AI là AI có khả năng tự thực hiện nhiều bước công việc thay mặt người dùng.

Dù đang đặt cược lớn vào AI trên thiết bị, Apple cũng phải duy trì Private Cloud Compute cho các yêu cầu vượt quá khả năng xử lý của phần cứng cá nhân. Trong các tài liệu kỹ thuật công bố đầu tháng 6, Apple cho biết những tác vụ AI đòi hỏi suy luận phức tạp, sử dụng công cụ tự động hoặc cần cửa sổ ngữ cảnh lớn hơn vẫn phải được xử lý trên hạ tầng Private Cloud Compute thay vì trực tiếp trên thiết bị.

Một thách thức khác là chất lượng mô hình AI.

Các mô hình AI mã nguồn mở có thể chạy trực tiếp trên máy tính hoặc smartphone đang phát triển rất nhanh. Song theo nhiều chuyên gia, chúng vẫn thường đi sau các mô hình AI tiên tiến chạy trên nền tảng đám mây vài tháng về khả năng và hiệu suất.

Nói cách khác, AI chạy cục bộ giúp tiết kiệm chi phí và tăng quyền riêng tư, nhưng không mạnh bằng AI trên đám mây.

AI lai là tương lai thay vì AI cục bộ hoàn toàn

Ngày càng xuất hiện nhiều dấu hiệu cho thấy ngành công nghệ đang hướng tới một kiến trúc mới thay vì lựa chọn giữa AI trên đám mây hoặc cục bộ. Trong đó, những công việc đơn giản như tóm tắt email, dịch văn bản, nhận diện hình ảnh hoặc hỗ trợ gõ văn bản sẽ được xử lý trên thiết bị. Những công việc khó và phức tạp hơn sẽ được gửi lên đám mây.

Apple hiện đã áp dụng mô hình nhiều tầng giữa AI trên thiết bị và AI trên đám mây. Theo nhiều nhà phân tích, đây có thể trở thành hình mẫu cho toàn ngành AI trong vài năm tới.

Điều này cũng phù hợp với thực tế mới của ngành AI. Khi chi phí token, GPU và áp lực chứng minh hiệu quả đầu tư ngày càng lớn, các doanh nghiệp không còn chỉ chạy đua về độ thông minh của mô hình AI, mà phải quan tâm tới hiệu quả kinh tế từng truy vấn.

Sơn Vân