Công cụ AI tạo hình ảnh siêu nhanh

Khoa học - công nghệ - Ngày đăng : 15:00, 23/03/2025

Cây bút công nghệ Nadeem Sarwar của trang Digital Trends giới thiệu công cụ trí tuệ nhân tạo (AI) mang tên HART do hãng chip Nvidia hợp tác với Viện Công nghệ Massachusetts cùng Đại học Thanh Hoa phát triển, sở hữu khả năng tạo hình ảnh siêu nhanh với yêu cầu tính toán thấp đi đáng kể.
Khoa học - công nghệ

Công cụ AI tạo hình ảnh siêu nhanh

Cẩm Bình 23/03/2025 15:00

Cây bút công nghệ Nadeem Sarwar của trang Digital Trends giới thiệu công cụ trí tuệ nhân tạo (AI) mang tên HART do hãng chip Nvidia hợp tác với Viện Công nghệ Massachusetts cùng Đại học Thanh Hoa phát triển, sở hữu khả năng tạo hình ảnh siêu nhanh với yêu cầu tính toán thấp đi đáng kể.

Một trong những vấn đề lớn của AI là tiêu thụ nhiều năng lượng và yêu cầu tính toán cao, đặc biệt khi thực hiện tác vụ như tạo nội dung. Với điện thoại di động, chỉ số ít thiết bị đắt tiền dùng chip mạnh mẽ mới đủ sức chạy tính năng này. Ngay cả điện toán đám mây cũng chẳng giúp giải quyết vấn đề.

Dường như Nvidia đã âm thầm tìm cách giải quyết thông qua quan hệ đối tác với đội ngũ chuyên gia tại Viện Công nghệ Massachusetts (MIT) cùng Đại học Thanh Hoa, phát triển công cụ AI HART kết hợp hai kỹ thuật tạo hình ảnh phổ biến nhất hiện nay.

Sarwar yêu cầu HART tạo hình ảnh một chú vẹt chơi guitar, công cụ cho ra thành phẩm chỉ sau khoảng 1 giây khiến ông chẳng theo dõi được quá trình công cụ thao tác. Mô hình Imagen 3 của Google trong Gemini mất khoảng 9 - 10 giây (kết nối mạng 200 Mbps) mới tạo xong.

screenshot-2025-03-23-121739.png
Ảnh chú vẹt chơi guitar do HART tạo ra - Ảnh: MIT / HART

Bước đột phá

Khi hình ảnh AI bắt đầu khuấy động giới công nghệ, kỹ thuật khuếch tán là nền tảng đứng sau tất cả như trình tạo ảnh Dall-E của OpenAI, Imagen của Google. Kỹ thuật cho ra thành phẩm có độ chi tiết cực cao, nhưng cần trải qua nhiều bước lọc lượng lớn dữ liệu do đó thao tác chậm và yêu cầu tính toán cao.

Đến gần đây nổi lên kỹ thuật tự hồi quy – về cơ bản thao tác theo cùng mô hình như chatbot, tạo hình ảnh bằng cách dự đoán pixel tiếp theo trong một chuỗi. Kỹ thuật mới nhanh hơn nhưng dễ xảy ra lỗi hơn.

Nhóm hợp tác Nvidia - MIT - Đại học Thanh Hoa kết hợp cả hai kỹ thuật vào HART. Công cụ dựa trên kỹ thuật tự hồi quy dự đoán hình ảnh dưới dạng mã thông báo rời rạc, sau đó kỹ thuật khuếch tán xử lý phần còn lại để bù đắp sự mất mát về chất lượng. Dùng cùng lúc hai kỹ thuật giúp tổng số bước thao tác từ 20 giảm còn 8.

Đội ngũ chuyên gia phát triển HART tuyên bố công cụ có thể tạo hình ảnh với chất lượng ngang bằng hoặc vượt trội hơn loạt mô hình khuếch tán hiện đại, nhưng thời gian tạo nhanh hơn khoảng 9 lần. Kỹ thuật tự hồi quy của HART xử lý được tối đa 700 triệu tham số còn kỹ thuật khuếch tán đủ sức xử lý 37 triệu tham số.

Giải quyết bài toán chi phí

HART tạo hình ảnh chất lượng tương đương công cụ với dung lượng tham số xử lý đến 2 tỉ, tuy nhiên lại đòi hỏi ít hơn 31% tài nguyên tính toán. Như vậy công cụ này có thể chạy cục bộ trên điện thoại hay máy tính xách tay. Cho đến nay loạt nền tảng phổ biến như ChatGPT hay Gemini đều đòi hỏi kết nối mạng để tạo hình ảnh vì quá trình tính toán diễn ra trên máy chủ dịch vụ đám mây.

Trong thử nghiệm, HART chạy trên máy tính xách tay MSI với bộ xử lý Intel Core và phần cứng đồ họa Nvidia GeForce RTX. Đây là trang bị thường thấy trên phần lớn máy tính chơi game hiện tại. Thành phẩm do HART tạo ra có tỉ lệ khung hình 1:1, độ phân giải 1024 x 1024 pixel. Độ chi tiết cũng rất ấn tượng.

Tiềm năng của công cụ rất thú vị, đặc biệt khi tích hợp khả năng của HART với mô hình ngôn ngữ. Theo nhóm hợp tác: “Trong tương lai mọi người có thể tương tác với một mô hình tạo ngôn ngữ - hình ảnh thống nhất”. Thậm chí họ còn lên kế hoạch thử nghiệm HART tạo đoạn âm thanh hoặc đoạn phim.

Một số khiếm khuyết

Trên thực tế HART chỉ mới là dự án nghiên cứu vẫn đang ở giai đoạn đầu. Về mặt kỹ thuật công cụ vẫn gặp chút rắc rối, chẳng hạn vấn đề lúc đào tạo AI hay trong quá trình suy luận.

Ông Sarwar cũng ghi nhận HART gặp phải những lỗi thường gặp như khó nhận biết chữ số hay vài mô tả cơ bản như ăn thực phẩm, không đảm bảo tính nhất quán của nhân vật, không nắm bắt được góc nhìn, hiểu sai khái niệm về một số thứ cơ bản...

Cẩm Bình