AI & Blockchain

Qwen3.7-Max vượt Gemini 3.5 Flash và GPT-5.5 về lập trình AI

Sơn Vân • 28/05/2026 11:42

Qwen3.7-Max, mô hình AI mới nhất của Alibaba, xuất hiện trong top 5 Code Arena. Đây là bảng xếp hạng về khả năng lập trình của mô hình AI toàn cầu quan trọng do Arena vận hành.

Cụ thể, Qwen3.7-Max đạt 1.541 điểm trên bảng xếp hạng Code Arena để đứng thứ 4 thế giới, vượt qua Muse Spark của Meta (hạng 9), Google Gemini 3.5 Flash (thứ 10) và GPT-5.5 của OpenAI (hạng 11).

4 vị trí còn lại trong top 5 đều thuộc về các phiên bản khác nhau của Claude Opus 4.7 và Claude Opus 4.6 do Anthropic phát triển.

Qwen3.7-Max vượt Gemini 3.5 Flash và GPT-5.5 trên bảng xếp hạng lập trình — Qwen3.7-Max đứng vị trí thứ 4 trên bảng xếp hạng của Code Arena. Ảnh chụp màn hình

Bảng xếp hạng này được công bố trong bối cảnh các công ty AI Trung Quốc ngày càng chuyển hướng từ chatbot đa năng sang các tác tử AI lập trình chuyên biệt và những hệ thống tự động khác. Giới đầu tư xem đây là những ứng dụng AI tạo sinh có tiềm năng thương mại lớn nhất.

Khác với công cụ đánh giá hiệu năng lập trình truyền thống như HumanEval hay SWE-bench vốn dựa trên các bài kiểm tra chuẩn hóa, Code Arena đánh giá khả năng các mô hình AI tự xây dựng hoàn chỉnh những ứng dụng web tương tác từ đầu, dựa trên yêu cầu của người dùng.

Sau đó, người dùng bỏ phiếu cho các kết quả ẩn danh trong các cuộc so sánh mù, nên bảng xếp hạng này phản ánh khá sát sở thích và nhu cầu thực tế của các lập trình viên.

So sánh mù là hình thức so sánh mà người đánh giá không biết kết quả đó do mô hình AI nào tạo ra. Trong bối cảnh AI, điều này có nghĩa là người dùng chỉ nhìn thấy kết quả đầu ra của các mô hình AI rồi chọn cái tốt hơn, mà không biết đó là kết quả từ Anthropic, OpenAI, Google hay Alibaba. Cách làm đó giúp giảm thiên vị thương hiệu và phản ánh khách quan hơn chất lượng thực tế của mô hình AI.

Công cụ đánh giá này do Arena vận hành. Đây là tổ chức ở Mỹ được thành lập bởi các nhà nghiên cứu từ Đại học California Berkeley phối hợp với Đại học California San Diego và Đại học Carnegie Mellon.

Việc ngành AI ngày càng tập trung vào lập trình diễn ra sau thành công của các công ty Mỹ như Anthropic và OpenAI. Các mô hình Claude cùng tác tử AI lập trình Claude Code của Anthropic đã trở thành những sản phẩm AI cho thấy khả năng giữ chân người dùng bền vững và tiềm năng tạo doanh thu đáng kể.

Theo khảo sát năm ngoái của Stack Overflow, 84% lập trình viên đã sử dụng hoặc có kế hoạch sử dụng công cụ AI, trong khi 51% lập trình viên chuyên nghiệp dùng AI hằng ngày. Stack Overflow là website hỏi đáp nổi tiếng dành cho lập trình viên.

Qwen3.7-Max là mô hình AI mạnh nhất Trung Quốc

Qwen3.7-Max được thiết kế cho các tác vụ tự động, giúp quản lý các quy trình làm việc kéo dài, sử dụng công cụ phần mềm và tự viết mã.

Theo bảng xếp hạng của Artificial Analysis, Qwen3.7-Max là mô hình AI mạnh nhất Trung Quốc xét về hiệu năng tổng thể.

Qwen3.7-Max đạt 57 điểm, cao hơn đáng kể mức trung bình của các mô hình AI cùng phân khúc và vượt nhiều đối thủ Trung Quốc khác như DeepSeek, GLM hay Kimi trong bảng xếp hạng tổng hợp về suy luận, lập trình, toán học, xử lý tác vụ nhiều bước.

Qwen3.7-Max vượt Gemini 3.5 Flash và GPT-5.5 trên bảng xếp hạng lập trình (2)1 — Theo Artificial Analysis, Qwen3.7-Max là mô hình AI mạnh nhất Trung Quốc xét về hiệu năng tổng thể, nhưng đứng sau GPT-5.5, Claude Opus 4.7 và Gemini 3.1 Pro. Ảnh chụp màn hình

Artificial Analysis là nền tảng đánh giá độc lập chuyên theo dõi, so sánh và xếp hạng các mô hình AI như tạo văn bản, hình ảnh, video. Công ty này xây dựng các bảng đánh giá chuẩn để đo lường chất lượng, tốc độ, chi phí và hiệu năng của từng mô hình. Từ đó, doanh nghiệp, nhà phát triển và giới đầu tư sẽ hiểu rõ mô hình AI nào đang dẫn đầu, có lợi thế về giá hay khả năng mở rộng.

Trong bài đăng trên WeChat, Alibaba cho biết Qwen3.7-Max có thể xử lý các nhiệm vụ phức tạp liên tục tới 35 giờ và sử dụng công cụ phần mềm hơn 1.000 lần liên tiếp mà không cần sự hỗ trợ của con người.

Động thái này phản ánh xu hướng rộng lớn hơn của ngành công nghệ, khi các công ty đang chuyển từ chatbot hội thoại sang tác tử AI - hệ thống AI tự chủ có thể hoàn thành những dự án nhiều bước với rất ít sự giám sát của con người.

DeepSeek tăng tốc phát triển mảng lập trình bằng AI

Nhiều công ty Trung Quốc cũng đang tăng tốc phát triển mảng lập trình bằng AI. DeepSeek gần đây đã tuyển thêm 2 vị trí liên quan đến tác tử AI lập trình, gồm 1 quản lý sản phẩm và 1 kỹ sư phần mềm.

Chen Deli, nhà nghiên cứu cấp cao của DeepSeek, cho biết trên mạng xã hội rằng những nhân sự mới này sẽ tham gia một dự án “về cơ bản là cạnh tranh trực tiếp với Claude Code”. Ông nói mục tiêu là phát triển coding harness, tức là hạ tầng phần mềm quan trọng giúp biến một mô hình AI thông thường thành tác tử AI.

Do phát triển phần mềm sử dụng các ngôn ngữ lập trình được chuẩn hóa trên toàn cầu, lĩnh vực này giúp các mô hình AI Trung Quốc dễ tiếp cận người dùng quốc tế hơn so với những dịch vụ Internet hướng trực tiếp đến người tiêu dùng.

Hiện tại, các sản phẩm AI của Mỹ như Cursor, GitHub Copilot, Claude Code, Codex của OpenAI vẫn đang thống trị quy trình phát triển phần mềm trên toàn cầu.

Dù vậy, nhiều lãnh đạo ngành công nghệ, gồm cả Satya Nadella (Giám đốc điều hành Microsoft) và Dario Amodei (Giám đốc điều hành Anthropic), dự đoán rằng cuộc đua AI dài hạn cuối cùng sẽ không phụ thuộc quá nhiều vào điểm số trên bảng xếp hạng mô hình AI.

Thay vào đó, yếu tố quyết định sẽ là công ty nào có thể tích hợp mô hình AI vào thói quen làm việc hằng ngày của nhà phát triển để trở thành hạ tầng mặc định cho việc tạo phần mềm.