AI & Blockchain

DeepSeek V3.2-Exp cải thiện về suy luận, mạnh ngang V3.1-Terminus dù rẻ hơn

Sơn Vân • 29/09/2025 22:58

Ngành công nghiệp đang theo dõi sát sao các sản phẩm mới của DeepSeek sau khi công ty khởi nghiệp này cho biết sẽ tinh chỉnh mô hình phù hợp với chip AI sản xuất tại Trung Quốc.

Hôm 29.9, DeepSeek ra mắt V3.2-Exp, bản nâng cấp cho mô hình nền tảng V3 (ra mắt vào tháng 12.2024), trước kỳ nghỉ Quốc khánh Trung Quốc khi đang đẩy nhanh việc phát hành sản phẩm mới.

Theo DeepSeek, V3.2-Exp cải thiện hiệu quả huấn luyện và suy luận, đồng thời giảm chi phí giao diện lập trình ứng dụng (API) hơn 50% so với các phiên bản trước. V3.2-Exp hiện có sẵn trên website và ứng dụng của DeepSeek.

Động thái này diễn ra chỉ một tuần sau khi DeepSeek phát hành phiên bản DeepSeek-V3.1-Terminus và hai tháng kể từ lúc V3.1 trình làng.

Ngành công nghệ đặc biệt quan tâm tới DeepSeek sau tuyên bố hồi tháng 8 rằng công ty sẽ tinh chỉnh các mô hình của mình phù hợp các chip AI thế hệ mới được phát triển tại Trung Quốc.

Hồi tháng 1, ngay trước Tết Nguyên đán, DeepSeek đã ra mắt mô hình suy luận R1, gây tiếng vang lớn cả trong và ngoài nước, khiến các đối thủ ở Trung Quốc phải giữ nhân viên làm việc xuyên kỳ nghỉ quan trọng bậc nhất trong năm.

Nhiều người từng suy đoán rằng trước kỳ nghỉ Quốc khánh kéo dài 8 ngày (bắt đầu từ 1.10), DeepSeek sẽ công bố bản nâng cấp lớn cho mô hình chủ lực V3 hoặc R1, có khả năng mang tên V4 hoặc R2. Song thay vào đó, DeepSeek lại giới thiệu cơ chế “chú ý thưa thớt” mới như bước trung gian hướng tới kiến trúc mô hình AI thế hệ tiếp theo, theo một bài đăng trên nền tảng dành cho nhà phát triển Hugging Face.

“Chú ý thưa thớt” đề cập đến đổi mới kỹ thuật giúp nâng cao hiệu quả mô hình AI bằng cách giảm chi phí điện toán liên quan đến huấn luyện.

DeepSeek cho biết V3.2-Exp đã tích hợp cơ chế “chú ý thưa thớt”, cải thiện hiệu quả khi xử lý các đầu vào dài. Theo DeepSeek, V3.2-Exp đạt hiệu suất tương đương với V3.1-Terminus dù chi phí sử dụng rẻ hơn đáng kể.

DeepSeek V3.2-Exp cải thiện suy luận, mạnh ngang V3.1-Terminus dù rẻ hơn1 — Bảng so sánh điểm của V3.2-Exp và V3.1-Terminus trên một số chuẩn đánh giá

“Bản phát hành thử nghiệm này thể hiện quá trình nghiên cứu liên tục của chúng tôi về các kiến trúc transformer hiệu quả hơn”, DeepSeek cho hay.

Theo Artificial Analysis, DeepSeek-V3.1-Terminus ngang ngửa với gpt-oss-120b của OpenAI (ra mắt vào tháng 8) trong danh sách hai mô hình ngồn mở mạnh nhất toàn cầu.

Artificial Analysis lưu ý rằng DeepSeek-V3.1-Terminus nhỉnh hơn một chút so với Qwen3-235B-2507 của Alibaba và trở thành mô hình AI mạnh nhất Trung Quốc.

Artificial Analysis là công ty Mỹ chuyên về việc đánh giá và so sánh các mô hình AI. Họ cung cấp các bảng xếp hạng và báo cáo độc lập để đánh giá hiệu suất của các mô hình AI, đặc biệt là các mô hình ngôn ngữ lớn.

Mục tiêu của Artificial Analysis là mang lại sự minh bạch cho thị trường AI đang phát triển nhanh chóng, giúp các nhà phát triển và doanh nghiệp đưa ra quyết định sáng suốt khi lựa chọn mô hình AI phù hợp với nhu cầu của mình.

Alibaba cũng đang nghiên cứu các mô hình AI nhỏ hơn nhưng hiệu quả hơn. Hồi đầu tháng 9, gã khổng lồ thương mại điện tử Trung Quốc cho biết các mô hình AI được xây dựng dựa trên kiến trúc Qwen3-Next mới, hiệu quả nhất từ trước tới nay, đóng vai trò như bản xem trước cho thế hệ mô hình thế hệ tiếp theo.

Cuối tháng 8, DeepSeek cho biết V3.1 đánh dấu bước đầu tiên hướng tới kỷ nguyên tác tử AI của công ty, đặt nền móng cho việc hỗ trợ các phần mềm giúp người dùng tự động hóa những tác vụ cụ thể.

Tác tử AI là ứng dụng AI được thiết kế để tự động quan sát, suy luận và thực hiện hành động nhằm đạt mục tiêu đã định. Khác với một ứng dụng AI tĩnh chỉ trả lời khi có lệnh, tác tử AI có khả năng nhận dữ liệu hoặc tín hiệu từ môi trường, phân tích và lên kế hoạch dựa trên kiến thức hoặc thuật toán có sẵn, chủ động thực hiện các bước tiếp theo, thậm chí phối hợp với con người hoặc các tác tử khác để hoàn thành nhiệm vụ.

Ví dụ, một tác tử AI có thể liên tục quét email, tự động soạn và gửi phản hồi phù hợp. Trong phần mềm, tác tử AI có thể tự lập kế hoạch sửa lỗi và tối ưu mã nguồn mà không đợi từng chỉ dẫn cụ thể.

Tuần trước, Huang Zhipeng, nhà nghiên cứu AI tại Đại học Utrecht (Hà Lan), dự đoán DeepSeek sẽ tiếp tục ra mắt các bản cập nhật mô hình AI dần dần. Ông cho rằng V4 có khả năng được phát hành vào năm 2026, còn R2 có thể xuất hiện vào dịp Tết Nguyên đán.

DeepSeek-V3.1-Terminus cải thiện lập trình và tìm kiếm

Hôm 23.9, DeepSeek phát hành phiên bản V3.1-Terminus, chỉ 1 tháng sau khi trình làng V3.1. Theo công ty có trụ sở ở thành phố Hàng Châu, V3.1-Terminus được cải thiện khả năng lập trình và tìm kiếm so với V3.1, cũng như tăng cường độ nhất quán về ngôn ngữ.

Trước khi có V3.1-Terminus, người dùng đã chia sẻ ảnh chụp màn hình cho thấy chatbot DeepSeek tạo ra các phản hồi chứa ký hiệu khó đọc và đôi khi tự động chuyển đổi giữa tiếng Trung và tiếng Anh mà không có yêu cầu.

Theo điểm số do chính DeepSeek công bố, V3.1-Terminus cải thiện nhẹ trên một số chuẩn đánh giá phổ biến. Trong đó có Humanity’s Last Exam (bộ câu hỏi học thuật nghiêm ngặt được thiết kế để kiểm tra giới hạn của mô hình AI) và các chuẩn đánh giá lập trình khác. Nhiều chuyên gia AI tin rằng khả năng lập trình mạnh mẽ là yếu tố then chốt để phát triển các hệ thống AI toàn diện với năng lực tổng quát.

V3.1-Terminus cũng cho thấy sự cải thiện trên chuẩn BrowseComp do OpenAI hậu thuẫn, vốn đánh giá khả năng truy xuất thông tin khó tìm từ internet. Tuy nhiên, ở phiên bản tiếng Trung của BrowseComp là BrowseComp-ZH, điểm số V3.1-Terminus lại giảm từ 49,2% xuống còn 45%.

Bảng so sánh điểm của V3.1-Terminus và V3.1 trên một số chuẩn đánh giá

Chuẩn đánh giá BrowseComp-ZH dường như đặc biệt khó khăn với các mô hình AI của DeepSeek, theo ông Zhou Peilin.

Zhou Peilin là tác giả chính của BrowseComp-ZH và là nhà nghiên cứu AI tại Đại học Khoa học & Công nghệ Hồng Kông.

Ông chỉ ra rằng R1 còn thể hiện kết quả tệ hơn trên chuẩn này khi được kết nối với internet. Đây là hiện tượng không xuất hiện ở các mô hình AI hàng đầu khác.

“Phải xem một báo cáo kỹ thuật đầy đủ, chúng ta mới có thể hiểu được tại sao DeepSeek-V3.1-Terminus lại hoạt động kém hơn so với V3.1 trên chuẩn đánh giá BrowseComp-ZH”, Zhou Peilin nói.

DeepSeek đang đối mặt với sự cạnh tranh ngày càng gia tăng trên thị trường nội địa đầy biến động cho các mô hình nền tảng, với các đối thủ như dòng Qwen của Alibaba và Doubao của ByteDance ngày càng thu hút cả khách hàng doanh nghiệp lẫn người dùng phổ thông.

Theo nền tảng điện toán đám mây PPIO (Trung Quốc), DeepSeek từng chiếm hơn 99% lượng sử dụng mô hình AI mã nguồn mở trên nền tảng này trong quý 1/2025, nhưng sự thống trị đó đã suy giảm đáng kể vào tháng 5, giữa lúc các mô hình Qwen tăng mạnh về mức độ phổ biến.

Dù vậy, các mô hình AI của DeepSeek vẫn tiếp tục thu hút sự quan tâm đáng kể trên toàn cầu. DeepSeek sắp trở thành tổ chức đầu tiên vượt mốc 100.000 người theo dõi trên Hugging Face, theo bài đăng trên mạng xã hội hôm 22.9 của Clément Delangue - giám đốc điều hành nền tảng phát triển mã nguồn mở này.

Sơn Vân