DeepSeek nâng cấp mô hình V4 với công nghệ DSpark, tăng tốc AI thêm 85%
DeepSeek vừa công bố bản nâng cấp lớn cho mô hình V4 với công nghệ DSpark, giúp tăng tốc AI lên tới 85% mà không cần mở rộng quy mô mô hình.

Động thái tăng tốc AI phản ánh sự thay đổi trong cuộc cạnh tranh AI tại Trung Quốc, khi các công ty không còn chỉ tập trung vào việc phát triển mô hình mạnh hơn mà chuyển sang tối ưu chi phí vận hành, giảm phụ thuộc vào chip cao cấp và cải thiện trải nghiệm người dùng.
DeepSeek tăng tốc AI bằng cách thay đổi cách mô hình "suy nghĩ"
Sau giai đoạn bùng nổ của các mô hình ngôn ngữ lớn (LLM), ngành AI đang bước sang một cuộc đua mới. Nếu trước đây các công ty cạnh tranh về số lượng tham số hay khả năng lập luận, thì hiện nay mục tiêu quan trọng hơn là giúp AI phản hồi nhanh hơn với chi phí thấp hơn.
DeepSeek vừa trở thành một trong những doanh nghiệp đi đầu theo xu hướng này khi giới thiệu DSpark, khung tăng tốc suy luận (speculative decoding framework) mới dành cho mô hình chủ lực V4.
Theo DeepSeek, công nghệ mới có thể giúp tốc độ phản hồi trên mỗi người dùng tăng tới 85%. Đây không phải là một mô hình AI hoàn toàn mới mà là cải tiến ở lớp hạ tầng vận hành, giúp khai thác hiệu quả hơn năng lực của các bộ xử lí đồ họa (GPU).
Trong các mô hình AI truyền thống, câu trả lời được tạo theo cách tuần tự, từng token một. Cách tiếp cận này khiến quá trình phản hồi kéo dài, đặc biệt khi AI phải tạo các đoạn văn bản lớn, đồng thời làm giảm hiệu quả sử dụng GPU.
Để khắc phục hạn chế đó, DeepSeek áp dụng kỹ thuật speculative decoding. Thay vì để mô hình chính tạo từng token, hệ thống sẽ sử dụng một mô hình nhẹ hơn để dự đoán trước nhiều token có khả năng xuất hiện. Sau đó, mô hình lớn sẽ kiểm tra và xác nhận toàn bộ nhóm token này cùng lúc.
Việc chuyển từ xử lí tuần tự sang xác minh theo lô giúp rút ngắn đáng kể thời gian phản hồi mà không làm thay đổi chất lượng đầu ra của mô hình. DSpark còn tiến thêm một bước khi sử dụng phương pháp sinh bán tự hồi quy (semi-autoregressive generation), cho phép mô hình tạo từng cụm token nhỏ thay vì từng token đơn lẻ.
Song song với đó là hệ thống điều phối dựa trên mức độ tin cậy (confidence-based scheduling). Hệ thống sẽ tự động điều chỉnh mức độ kiểm tra tùy theo tải tính toán hiện tại.
Khi nhu cầu tính toán thấp, AI sẽ thực hiện nhiều bước xác minh hơn nhằm tận dụng tối đa GPU. Ngược lại, khi số lượng truy vấn tăng mạnh, hệ thống giảm số lần kiểm tra để ưu tiên tốc độ phản hồi.
Theo lập trình viên Huang Yong tại Bắc Kinh, nếu trước đây một GPU chỉ xử lí được khoảng 100 yêu cầu cùng lúc thì với mức cải thiện hiệu suất lên tới 85%, con số này có thể tăng lên khoảng 185 yêu cầu mà không cần thay đổi phần cứng. Điều này đồng nghĩa các doanh nghiệp có thể phục vụ nhiều người dùng hơn trên cùng một hạ tầng, qua đó giảm đáng kể chi phí vận hành.
Cuộc đua AI chuyển trọng tâm từ mô hình sang hiệu quả vận hành
Điểm đáng chú ý là DSpark không làm cho DeepSeek "thông minh hơn" theo nghĩa truyền thống. Công nghệ này không nâng cao khả năng lập luận hay mở rộng kiến thức của mô hình, mà tập trung vào việc giúp mô hình hiện có hoạt động hiệu quả hơn.
Đây chính là xu hướng đang diễn ra tại Trung Quốc khi các doanh nghiệp AI chịu áp lực ngày càng lớn từ cả thị trường lẫn các biện pháp kiểm soát xuất khẩu chip tiên tiến của Mỹ.
Do khó tiếp cận những GPU hiện đại nhất, các công ty Trung Quốc buộc phải tìm cách khai thác tối đa hạ tầng sẵn có thông qua các giải pháp tối ưu phần mềm.
DeepSeek cho biết DSpark đã được thử nghiệm trên nhiều mô hình nguồn mở khác ngoài sản phẩm của hãng, bao gồm Gemma của Google DeepMind và Qwen của Alibaba Group. Điều này cho thấy công nghệ mới có thể được áp dụng rộng rãi cho nhiều hệ thống AI khác nhau thay vì chỉ phục vụ DeepSeek.
Công ty cũng quyết định mở mã nguồn toàn bộ nghiên cứu về DSpark, được phát triển cùng Peking University, trên hai nền tảng GitHub và Hugging Face nhằm thúc đẩy cộng đồng AI tiếp tục tối ưu hóa hiệu suất suy luận.
Không chỉ DeepSeek, nhiều doanh nghiệp Trung Quốc cũng đang chuyển trọng tâm sang bài toán AI inference, tức giai đoạn đưa mô hình đã huấn luyện vào phục vụ người dùng.
Tuần trước, Tencent nhận định hiệu quả suy luận đang trở thành nút thắt lớn nhất đối với việc triển khai AI quy mô lớn trên các hệ thống phần cứng không quá mạnh.
Tập đoàn này cho biết đã thực hiện hàng loạt cải tiến về cơ chế attention, tính toán bất đồng bộ và bộ nhớ đệm để nâng cao tốc độ phản hồi của mô hình.
Trong khi đó, đầu tháng này, đội ngũ AI của Xiaomi cũng công bố mô hình MiMo-V2.5-Pro-UltraSpeed với khả năng tạo hơn 1.000 token mỗi giây, thuộc nhóm nhanh nhất trong ngành.
Xu hướng này diễn ra trong bối cảnh nhu cầu AI toàn cầu tiếp tục tăng mạnh, kéo theo giá GPU, bộ nhớ băng thông cao (HBM) và hạ tầng trung tâm dữ liệu leo thang. Việc tối ưu hóa suy luận vì thế không chỉ giúp AI phản hồi nhanh hơn mà còn trực tiếp giảm chi phí đầu tư cho doanh nghiệp.
Giới chuyên gia nhận định cuộc cạnh tranh AI đang bước sang giai đoạn trưởng thành hơn. Nếu giai đoạn đầu tập trung vào việc xây dựng các mô hình ngày càng lớn, thì giai đoạn tiếp theo sẽ xoay quanh khả năng vận hành hiệu quả. Doanh nghiệp nào giúp AI phản hồi nhanh hơn, phục vụ nhiều người dùng hơn trên cùng một hạ tầng và giảm chi phí triển khai sẽ có lợi thế lớn trong việc thương mại hóa công nghệ. Với DSpark, DeepSeek cho thấy cuộc đua AI giờ đây không còn chỉ là ai sở hữu mô hình mạnh nhất, mà còn là ai biết khai thác sức mạnh đó hiệu quả nhất.