Đột phá

Cách Alibaba tạo mô hình AI rẻ nhất nhưng mạnh hơn DeepSeek R1 và Kimi K2

Sơn Vân • 14/09/2025 11:18

Bước đột phá kỹ thuật giúp Alibaba tạo ra Qwen3-Next-80B-A3B có hiệu năng vượt mô hình AI của các đối thủ nhưng nhỏ gọn và chi phí huấn luyện rẻ hơn đáng kể.

Gã khổng lồ thương mại điện tử Alibaba là một trong những nhân tố hàng đầu trong làn sóng trí tuệ nhân tạo (AI) tại Trung Quốc.

Alibaba Cloud hôm 13.9 đã công bố Qwen3-Next-80B-A3B, mô hình ngôn ngữ lớn thế hệ mới vừa đạt hiệu suất cao vừa tiết kiệm tài nguyên như bộ nhớ, điện toán, chi phí huấn luyện. Bộ phận AI và điện toán đám mây của Alibaba gọi đây là “tương lai của các mô hình ngôn ngữ lớn hiệu quả”.

Qwen3-Next-80B-A3B nhỏ hơn gần 13 lần so với Qwen-3-Max-Preview, mô hình AI đầu tiên của Alibaba vượt ngưỡng 1.000 tỉ tham số, được giới thiệu một tuần trước.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

Qwen3-Next-80B-A3B có chi phí huấn luyện chưa tới 500.000 USD, hiệu suất vượt DeepSeek R1 và Kimi K2

Dù kích thước gọn nhẹ, Qwen3-Next-80B-A3B vẫn được các nhà phát triển đánh giá là một trong những mô hình AI xuất sắc nhất của Alibaba tính đến nay. Bí quyết nằm ở hiệu suất: Qwen3-Next-80B-A3B được cho là nhanh hơn gấp 10 lần trong một số tác vụ so với Qwen3-32B ra mắt hồi tháng 4, đồng thời giảm tới 90% chi phí huấn luyện.

Emad Mostaque, đồng sáng lập công ty khởi nghiệp Stability AI (Anh), viết trên mạng xã hội X rằng Qwen3-Next-80B-A3B vượt trội “hầu như mọi mô hình AI năm ngoái”, dù chi phí huấn luyện ước tính chưa tới 500.000 USD.

Để so sánh, Google tiêu tốn khoảng 191 triệu USD cho việc huấn luyện mô hình Gemini Ultra (ra mắt tháng 2.2024), theo Chỉ số AI của Đại học Stanford (Mỹ).

Theo Artificial Analysis (công ty đánh giá mô hình AI hàng đầu có trụ sở ở Mỹ), Qwen3-Next-80B-A3B vượt qua cả DeepSeek R1 và Kimi K2 do Moonshot AI phát triển. Moonshot AI là công ty khởi nghiệp AI Trung Quốc được Alibaba hậu thuẫn.

Bí kíp giúp Alibaba tạo mô hình AI rẻ nhất nhưng mạnh hơn DeepSeek R1, Kimi-K2 — Qwen3-Next-80B-A3B có hiệu năng vượt DeepSeek R1 và Kimi-K2 nhưng nhỏ gọn và chi phí huấn luyện rẻ hơn đáng kể - Ảnh: Alibaba

Thành công nhờ cơ chế chú ý lai

Một số nhà nghiên cứu AI cho rằng thành công của Qwen3-Next-80B-A3B nhờ vào kỹ thuật tương đối mới gọi là cơ chế chú ý lai (hybrid attention).

Cơ chế chú ý lai là kỹ thuật tiên tiến trong lĩnh vực học máy, được thiết kế để cải thiện hiệu quả và hiệu suất các mô hình ngôn ngữ lớn. Về cơ bản, kỹ thuật này kết hợp các ưu điểm của cơ chế chú ý truyền thống với phương pháp tính toán hiệu quả khác để giải quyết những hạn chế của nó.

Các mô hình AI hiện tại gặp hiện tượng hiệu quả giảm dần khi độ dài đầu vào tăng, do cơ chế chú ý quyết định thông tin nào quan trọng nhất. Cơ chế này luôn tồn tại sự đánh đổi: Chú ý càng chính xác thì chi phí điện toán càng cao. Chi phí đó càng chồng chất khi mô hình xử lý ngữ cảnh dài và khiến việc huấn luyện các tác tử AI phức tạp trở nên đắt đỏ.

Tác tử AI là hệ thống có khả năng nhận thức, lập kế hoạch và thực hiện các hành động độc lập để đạt được mục tiêu. Ví dụ, tác tử AI có thể tự động tìm kiếm thông tin trên internet, tổng hợp dữ liệu và thực hiện các tác vụ phức tạp mà không cần sự can thiệp liên tục từ người dùng.

Qwen3-Next-80B-A3B giải quyết thách thức này bằng cách áp dụng kỹ thuật Gated DeltaNet, được các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) và Nvidia giới thiệu lần đầu vào tháng 3.

Gated DeltaNet tăng cường cơ chế chú ý bằng cách điều chỉnh có chọn lọc dữ liệu đầu vào, xác định thông tin nên giữ lại và loại bỏ phần không cần thiết, theo Zhou Peilin - nhà nghiên cứu AI tại Đại học Khoa học & Công nghệ Hồng Kông. Điều này tạo ra một cơ chế chú ý vừa chính xác vừa tiết kiệm chi phí.

Dẫn các điểm số từ Ruler benchmark - công cụ đánh giá các mô hình AI dựa trên khả năng xử lý độ dài đầu vào khác nhau, Alibaba cho biết Qwen3-Next-80B-A3B có hiệu suất tương đương với mô hình mạnh mẽ nhất của họ là Qwen3-235B-A22B-Thinking-2507, dù nhỏ hơn và rẻ hơn.

“Thật tuyệt khi thấy Gated DeltaNet đã được Alibaba mở rộng đáng kể để xây dựng những mô hình AI xuất sắc”, theo Juergen Schmidhuber - giáo sư khoa học máy tính tại Đại học Khoa học & Công nghệ Nhà vua Abdullah (Ả Rập Saudi) từng góp phần phát triển Gated DeltaNet từ những năm 1990.

Qwen3-Next-80B-A3B cũng sử dụng kiến trúc MoE (tổ hợp các chuyên gia), vốn mang lại nhiều cải tiến hiệu suất cho nhiều mô hình AI Trung Quốc năm qua, gồm cả DeepSeek V3, R1 và Kimi K2.

MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia (expert), mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.

Alibaba đã nâng cao “mức độ thưa” của kiến trúc MoE mới (giảm số chuyên gia hoạt động đồng thời) nhằm cải thiện hiệu quả. Trong khi DeepSeek-V3 và Kimi K2 lần lượt dùng 256 và 384 chuyên gia, Qwen3-Next-80B-A3B có 512 chuyên gia nhưng chỉ kích hoạt 10 chuyên gia tại một thời điểm.

Bằng cách giảm số chuyên gia hoạt động đồng thời, Alibaba giúp Qwen3-Next-80B-A3B tiêu thụ ít tài nguyên điện toán hơn, chạy nhanh hơn và tiết kiệm chi phí, nhưng vẫn giữ được chất lượng đầu ra.

Artificial Analysis cho biết nhờ những đổi mới này, Qwen3-Next-80B-A3B đạt hiệu năng ngang DeepSeek-V3.1 dù chỉ có 3 tỉ tham số. Con số này ở DeepSeek-V3.1 là 37 tỉ tham số. Thông thường, tham số càng cao nghĩa là mô hình AI mạnh hơn, nhưng đồng thời làm tăng chi phí huấn luyện và vận hành.

Hiệu quả còn thể hiện rõ trên nền tảng đám mây của Alibaba, nơi Qwen3-Next-80B-A3B có chi phí vận hành rẻ hơn Qwen3-235B-2507, vốn chứa 235 tỉ tham số.

xAI của Elon Musk huấn luyện Grok 4 với chi phí đến 490 triệu USD

Kiến trúc mới phản ánh xu hướng quan tâm ngày càng lớn với các mô hình AI nhỏ nhưng hiệu quả, trong bối cảnh lo ngại về chi phí khổng lồ khi tiếp tục mở rộng những sản phẩm hàng đầu.

Theo Epoch AI, lần huấn luyện mô hình AI đắt nhất cho tới nay là Grok 4 của công ty khởi nghiệp xAI (Mỹ) với chi phí 490 triệu USD. Công ty nghiên cứu Epoch AI (Mỹ) dự báo các lần huấn luyện mô hình AI trong tương lai có thể vượt 1 tỉ USD vào năm 2027.

Tháng 8 vừa qua, các nhà nghiên cứu tại Nvidia (hãng chip AI số 1 thế giới) đã xuất bản bài báo ủng hộ các mô hình ngôn ngữ nhỏ là tương lai của AI mang tính chủ động vì tính linh hoạt và hiệu quả của chúng. Nvidia đang thử nghiệm kỹ thuật Gated DeltaNet trên các mô hình Nemotron của mình.

Trong khi đó, các hãng công nghệ AI Trung Quốc đang thúc đẩy việc phổ cập mô hình AI bằng cách đảm bảo chúng đủ nhỏ để chạy trên laptop và smartphone.

Tháng 8, Tencent giới thiệu bốn mô hình AI nguồn mở, mỗi cái đều dưới 7 tỉ tham số. Công ty khởi nghiệp Z.ai đã tung ra mô hình GLM 4.5 Air với chỉ 12 tỉ tham số.

Gần 20.000 lượt tải xuống Qwen3-Next-80B-A3B sau 24 giờ

Theo Artificial Analysis, Qwen3-Next-80B-A3B hiện đủ gọn để vận hành trên một GPU Nvidia H200 duy nhất. Trên nền tảng nguồn mở Hugging Face, Qwen3-Next-80B-A3B nhanh chóng lọt vào bảng xếp hạng xu hướng, đạt gần 20.000 lượt tải xuống chỉ trong 24 giờ sau khi ra mắt.

Alibaba cho biết kiến trúc mới này đóng vai trò như bản xem trước cho thế hệ mô hình AI tiếp theo của hãng. Tương lai các mô hình ngôn ngữ lớn nhiều khả năng sẽ xoay quanh việc tinh chỉnh phương pháp tiếp cận của Alibaba nhằm giảm chi phí huấn luyện và tăng hiệu quả, ngay cả khi xuất hiện các kiến trúc hoàn toàn khác, theo Tobias Schröder - nhà nghiên cứu AI tại trường Imperial College London (Anh).

Qwen-3-Max-Preview vượt DeepSeek V3.1, Kimi K2, Claude Opus 4 trên năm thước đo đánh giá

Hôm 8.9, Alibaba đã phát hành mô hình AI lớn nhất từ trước tới nay của công ty là Qwen-3-Max-Preview.

Theo Alibaba, Qwen-3-Max-Preview chỉ hỗ trợ xử lý văn bản, vượt trội hơn mô hình tốt nhất trước đó của họ là Qwen3-235B-A22B-2507 (trình làng vào tháng 7) trong các bài kiểm thử nội bộ.

Alibaba công bố điểm số cho thấy Qwen-3-Max-Preview vượt DeepSeek V3.1, Kimi K2, phiên bản không suy luận của Claude Opus 4 do Anthropic (Mỹ) phát triển, trên 5 thước đo đánh giá. Cụ thể gồm:

SuperGPQA: Khả năng trả lời câu hỏi tổng hợp.

AIME25: Khả năng hiểu và xử lý ngữ nghĩa.

LiveCodeBench v6: Khả năng lập trình và xử lý mã.

Arena-Hard v2: Khả năng suy luận và giải quyết vấn đề phức tạp.

LiveBench (20241125): Khả năng xử lý ngữ cảnh và phản hồi linh hoạt.

Tuy nhiên, những dữ liệu này không được đưa vào báo cáo kỹ thuật chính thức.

“Qwen3-Max-Preview thể hiện những cải thiện đáng kể về năng lực tổng thể, với sự nâng cấp mạnh mẽ trong khả năng hiểu văn bản Trung-Anh, tuân thủ các chỉ dẫn phức tạp, xử lý các tác vụ mở mang tính chủ quan (đưa ra câu trả lời hợp lý, sáng tạo hoặc thuyết phục trong những tình huống không có đáp án chuẩn mực – PV), khả năng đa ngôn ngữ và gọi công cụ (kích hoạt và sử dụng các công cụ bên ngoài thông qua tích hợp API hoặc plugin – PV). Việc mở rộng quy mô đang diễn ra và bản phát hành chính thức sẽ còn làm bạn ngạc nhiên hơn nữa”, Alibaba tuyên bố.

Các mô hình Qwen đã đưa Alibaba lên vị trí dẫn đầu trong hệ sinh thái AI mã nguồn mở toàn cầu, với hơn 20 triệu lượt tải xuống và hơn 100.000 mô hình dẫn xuất trên nền tảng phát triển mã nguồn mở Hugging Face.

Mô hình dẫn xuất được phát triển dựa trên một mô hình gốc đã được công bố trước đó. Khi một công ty hoặc viện nghiên cứu phát hành mô hình mã nguồn mở, cộng đồng hoặc các nhà nghiên cứu có thể tải về và tiến hành tinh chỉnh, thay đổi cấu trúc hoặc bổ sung dữ liệu huấn luyện mới để tạo ra phiên bản phù hợp hơn với nhu cầu sử dụng cụ thể. Những phiên bản này được gọi là mô hình dẫn xuất.

Tuy nhiên, Qwen-3-Max-Preview hiện chưa được mở mã nguồn, quyền truy cập chỉ khả dụng thông qua các kênh chính thức. Qwen2.5-Max, mô hình AI trước đó trong dòng Max trình làng hồi tháng 1, cũng không được mở mã nguồn.

Binyuan Hui, kỹ sư AI của Alibaba, tiết lộ một phiên bản có khả năng tư duy của Qwen-3-Max-Preview đang “trong quá trình phát triển”.

Trên nền tảng Alibaba Cloud, Qwen-3-Max-Preview được áp dụng mức giá theo tầng, với mức tối thiểu 0,861 USD cho mỗi triệu token đầu vào và 3,441 USD cho mỗi triệu token đầu ra. Qua đó, Qwen-3-Max-Preview trở thành một trong những mô hình Qwen đắt nhất khi truy cập qua API (giao diện lập trình ứng dụng).

Để so sánh, Qwen3-235B-A22B-2507 thu phí 0,287 USD cho mỗi triệu token đầu vào và 1,147 USD cho mỗi triệu token đầu ra với phiên bản không có khả năng tư duy.

Mô hình Kimi K2 thu phí 0,60 USD cho mỗi triệu token đầu vào và 2,50 USD cho mỗi triệu token đầu ra.

Trong AI, token là đơn vị cơ bản mà mô hình AI xử lý. Token có thể là một từ hoàn chỉnh, một phần của từ hoặc một ký tự đặc biệt, gồm cả dấu câu. Ví dụ, câu “Tôi yêu AI” có thể được tách thành ba token: “Tôi”, “yêu”, “AI”.

Token đầu vào là số lượng token mà người dùng gửi vào mô hình AI để xử lý. Chúng đại diện cho văn bản, câu hỏi hoặc lệnh mà bạn cung cấp. Ví dụ, nếu bạn nhập một đoạn văn 100 từ, mô hình AI sẽ tách đoạn này thành các token tương ứng, có thể khoảng 120 token đầu vào, để hiểu yêu cầu và ngữ cảnh.

Token đầu ra là số lượng token mà mô hình AI tạo ra trong phản hồi. Đây là phần văn bản mà AI trả lại cho người dùng. Ví dụ, nếu bạn yêu cầu viết một đoạn văn 50 từ, mô hình AI có thể sinh ra khoảng 65 token đầu ra.

Sơn Vân