Đột phá

Hunyuan Image 3.0 vượt Nano Banana trở thành mô hình AI tạo ảnh hàng đầu

Sơn Vân • 06/10/2025 19:50

Hunyuan Image 3.0 vượt Nano Banana của Google để trở thành mô hình AI tạo ảnh hàng đầu, gồm cả mã nguồn mở và đóng, trên bảng xếp hạng LMArena.

Hunyuan Image 3.0 sở hữu 80 tỉ tham số và là mô hình AI tạo ảnh (trí tuệ nhân tạo) mã nguồn mở lớn nhất hiện nay.

Khi giới thiệu Hunyuan Image 3.0 cuối tháng 9 vừa qua, Tencent từng tuyên bố nó “hoàn toàn có thể sánh ngang các mô hình mã nguồn đóng hàng đầu trong ngành”.

“Dù bạn là họa sĩ minh họa, nhà thiết kế hay nhà sáng tạo nội dung, mô hình AI này được tạo ra để rút ngắn thời gian làm việc từ hàng giờ xuống chỉ còn vài phút”, Tencent cho hay.

Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) một cách chính xác nhất có thể dựa trên dữ liệu đã học.

Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.

Tencent cho biết Hunyuan Image 3.0 được huấn luyện trên bộ dữ liệu khổng lồ gồm 5 tỉ cặp ảnh - văn bản, khung hình video, dữ liệu đan xen giữa ảnh và văn bản, cùng 6 tỉ token văn bản.

Trên Fal.ai, nền tảng lưu trữ phương tiện truyền thông AI tạo sinh toàn cầu, Hunyuan Image 3.0 có giá 0,1 USD cho mỗi megapixel được tạo ra. Để so sánh, Nano Banana và Seedream 4.0 (mô hình tạo ảnh AI chủ lực của ByteDance) có giá lần lượt là 0,039 USD và 0,03 USD cho mỗi ảnh.

Hunyuan Image 3.0 hiện có trên trang web chính thức của Tencent, được mở mã nguồn trên nền tảng dành cho nhà phát triển GitHub và Hugging Face.

Trên Hugging Face, hiện Hunyuan Image 3.0 rất thịnh hành cùng các mô hình AI Trung Quốc khác mới ra mắt như DeepSeek V3.2-Exp và GLM-4.6 của Z.ai.

Theo Tencent, Hunyuan Image 3.0 hiện chỉ hỗ trợ chuyển văn bản thành hình ảnh nhưng gã khổng lồ công nghệ Trung Quốc có kế hoạch bổ sung các tính năng khác trong tương lai, gồm cả tạo ảnh từ ảnh và chỉnh sửa ảnh.

Hunyuan Image 3.0 vượt Nano Banana trở thành mô hình tạo ảnh AI hàng đầu — Hunyuan Image 3.0 tạo ảnh từ câu lệnh: 'Biến phà Star Ferry thành phi thuyền xuyên qua một lỗ sâu trong không gian'. Star Ferry là tên hãng phà nổi tiếng ở Hồng Kông, Trung Quốc

Seedream 4 tạo ra ảnh này từ câu lệnh: — Ảnh do Seedream 4 tạo từ câu lệnh 'Biến phà Star Ferry thành phi thuyền xuyên qua một lỗ sâu trong không gian'

Nano Banana đã tạo ra ảnh này từ câu lệnh: — Ảnh do Nano Banana tạo từ câu lệnh tương tự trên

LMArena là nền tảng đánh giá và xếp hạng các mô hình AI phổ biến. Được phát triển bởi các nhà nghiên cứu tại Đại học California - Berkeley (Mỹ), LMArena cho phép người dùng so sánh những mô hình AI khác nhau bằng các câu lệnh để xác định cái nào tốt hơn.

Chẳng hạn, người dùng có thể so sánh hai hình ảnh được tạo bởi hai mô hình AI khác nhau và bình chọn ảnh yêu thích hơn.

LMArena không chỉ là nơi đánh giá khách quan về chất lượng kỹ thuật mà còn phản ánh thị hiếu và cảm nhận của người dùng thực tế với các mô hình AI.

Hai đối thủ lớn nhất của Hunyuan Image 3.0

Trình làng cuối tháng 8, Nano Banana (có tên gọi chính thức là Gemini 2.5 Flash Image) nhanh chóng phổ biến nhờ khả năng chỉnh sửa hình ảnh chính xác và tạo mô hình 3D ấn tượng, từng dẫn đầu nhiều bảng xếp hạng mô hình AI.

Google cho biết thế mạnh đặc biệt của Nano Banana là giữ nguyên được hình dáng, diện mạo hay đặc điểm nhận dạng của một người hoặc động vật qua nhiều bức ảnh khác nhau. Nói cách khác, khi bạn yêu cầu Nano Banana thực hiện các chỉnh sửa hoặc tạo ra nhiều phiên bản khác nhau của một ảnh (thay đổi trang phục, bối cảnh hoặc thêm phụ kiện), mô hình AI này có khả năng duy trì đặc điểm khuôn mặt và hình dáng tổng thể của chủ thể (người hoặc động vật) một cách nhất quán, không làm biến dạng hay thay đổi nhận dạng ban đầu.

Đầu tháng 9, ByteDance tuyên bố Seedream 4.0 vượt trội Nano Banana trong tạo và chỉnh sửa ảnh trên thước đo đánh giá nội bộ của họ là MagicBench, với hiệu suất mạnh mẽ hơn về độ bám sát gợi ý, hiểu đúng/làm đúng và tính thẩm mỹ từ câu lệnh.

Theo Artificial Analysis - công ty đánh giá mô hình AI hàng đầu có trụ sở ở Mỹ, Seedream 4.0 thể hiện "bước tiến đáng kể" so với các công cụ AI trước đây của ByteDance. Cụ thể hơn, Seedream 4.0 kết hợp khả năng tạo ảnh từ văn bản của Seedream 3.0 với khả năng chỉnh sửa ảnh từ SeedEdit 3.0 mà vẫn giữ nguyên mức giá cũ là 30 USD cho mỗi 1.000 lượt tạo ảnh.

So với các mô hình AI trước, Seedream 4.0 có kiến trúc mới giúp tăng tốc độ xử lý hình ảnh thô lên hơn 10 lần, nên nhanh hơn nhiều để sử dụng, theo ByteDance (gã khổng lồ công nghệ có trụ sở tại thủ đô Bắc Kinh).

Những phản hồi trực tuyến rất tích cực, với người dùng ca ngợi độ chính xác trong chức năng chỉnh sửa ảnh của Seedream 4.0, cho phép thực hiện các thay đổi nhanh chóng với ảnh thông qua các câu lệnh văn bản.

Seedream 4.0 đã được cung cấp cho người dùng ở Trung Quốc trên các ứng dụng AI của ByteDance là Jimeng và Doubao, cũng như cho các khách hàng doanh nghiệp thông qua dịch vụ đám mây Volcano Engine của hãng.

Theo bảng xếp hạng LMArena, Seedream 4.0 hiện xếp thứ ba sau Hunyuan Image 3.0 và Nano Banana.

Hunyuan Image 3.0 vượt Nano Banana trở thành mô hình tạo ảnh AI hàng đầu1 — Bảng xếp hạng các mô hình AI tạo ảnh từ văn bản của LMArena - Ảnh PV chụp màn hình

Người Trung Quốc nhanh chóng đón nhận các mô hình tạo hình ảnh và video bằng AI. Lĩnh vực này đang chứng kiến sự cạnh tranh gay gắt giữa các hãng lớn như ByteDance, Tencent và công ty vận hành ứng dụng video ngắn Kuaishou Technology.

Ngày càng xuất hiện nhiều sản phẩm mới gần đây với mức giá cạnh tranh hơn, gồm cả công cụ tạo video Vidu - được phát triển chung bởi Đại học Thanh Hoa và công ty khởi nghiệp Shengshu AI có trụ sở tại Bắc Kinh.

Hôm 10.9, các nhà phát triển của Vidu đã ra mắt chức năng mới trên toàn cầu là tham chiếu đến hình ảnh, tạo ra ảnh dựa trên sự kết hợp của tối đa 7 ảnh tham chiếu, với giá 0,62 nhân dân tệ (0,09 USD) cho mỗi ảnh. Nano Banana hiện cho phép sử dụng tối đa 9 ảnh tham chiếu.

Chính quyền Trung Quốc đã thể hiện sự ủng hộ với nội dung do AI tạo bằng cách sẽ công nhận bản quyền của chúng vào cuối năm 2023, nhưng gần đây cũng đưa ra quy định bắt buộc gắn nhãn cho các nội dung đó.

Tham chiếu đến hình ảnh là dùng ảnh gốc làm mẫu để hướng dẫn AI tạo ảnh mới. Thay vì chỉ nhập câu lệnh (yêu cầu) bằng văn bản, người dùng có thể tải lên một hoặc nhiều ảnh gốc để AI dùng làm tài liệu tham chiếu. Dựa vào đó, AI sẽ tạo ra ảnh mới có phong cách, bố cục hoặc đặc điểm tương tự ảnh được tham chiếu, nhưng vẫn có thể thay đổi theo ý muốn người dùng.

Chẳng hạn, bạn đưa cho AI một bức ảnh chân dung và thêm lệnh: “Biến thành phong cách anime”. AI sẽ dùng ảnh gốc làm tham chiếu để giữ lại khuôn mặt, đặc điểm chính, nhưng chuyển đổi thành phong cách anime.

Nếu bạn đưa nhiều ảnh (ví dụ tối đa 7 hay 9 ảnh như Seedream 4.0 và Nano Banana cho phép), AI có thể kết hợp các yếu tố từ tất cả ảnh tham chiếu để tạo ra ảnh mới.