Nhịp đập công nghệ

Mô hình thị giác AI sắp có thể ‘nhìn’ giống con người

Cẩm Bình • 14/11/2025 14:34

Đội ngũ nghiên cứu DeepMind, thuộc Google, vừa phát triển một kỹ thuật giúp mô hình thị giác trí tuệ nhân tạo (AI) nhận thức giống con người hơn.

Kỹ thuật này có thể được sử dụng để tăng cường liên kết mô hình thị giác với kiến thức con người; nhằm giải quyết loạt vấn đề nhức nhối lâu nay. Chẳng hạn, việc chúng không biết ghi nhận mối quan hệ giữa 2 vật thể thuộc danh mục khác nhau. Hay cải thiện hiệu suất học với ít mẫu (học tác vụ mới chỉ bằng vài chục thậm chí vài tấm ảnh) cũng như ra quyết định. Mô hình trải qua tinh chỉnh sẽ diễn giải thông tin hình ảnh giống con người hơn, giúp các công cụ nhận dạng khuôn mặt do AI hỗ trợ hoạt động chính xác và ít thiên vị hơn.

Theo Google: “Nhiều mô hình thị giác hiện tại không thể nắm bắt được cấu trúc kiến thức cấp cao của con người. Nghiên cứu đưa ra phương pháp khả thi để giải quyết vấn đề, chứng tỏ được rằng mô hình có thể được tinh chỉnh gần hơn với phán đoán người thật và thực hiện tác vụ AI tiêu chuẩn đáng tin cậy hơn. Mặc dù còn nhiều việc phải làm, công trình của chúng tôi vẫn là một bước tiến hướng tới xây dựng hệ thống mạnh mẽ, đáng tin”.

AI chưa thể “nhìn” như người

Đội ngũ DeepMind cho biết: Các mô hình thị giác AI tạo ra thông tin, bằng cách ánh xạ hình ảnh thành vô số điểm trong không gian đa chiều sao cho vật thể giống nhau (ví dụ 2 con cừu) đặt gần nhau, còn vật thể khác nhau (1 con cừu và 1 chiếc bánh) đặt xa nhau. Cho đến nay, chúng vẫn chưa nắm bắt được điểm chung giữa 2 vật thể - chẳng hạn ô tô với máy bay - như con người. Chúng ta dễ dàng xác định cả hai đều là phương tiện cỡ lớn được chế tạo chủ yếu bằng kim loại.

Screenshot 2025-11-14 133405 — *Lâu nay các mô hình thị giác AI chưa biết ghi nhận mối quan hệ giữa 2 vật thể thuộc danh mục khác nhau* - Ảnh: DeepMind

Trước đây giới khoa học nhận thức thử dùng tệp dữ liệu gồm hàng triệu phán đoán khác biệt của con người (THINGS) huấn luyện AI, nhưng tệp này chứa quá ít hình ảnh nên không đủ để trực tiếp tinh chỉnh số mô hình thị giác mạnh mẽ.

Kỹ thuật của DeepMind

Để hiểu rõ sự khác biệt trong cách con người và mô hình nhận thức hình ảnh. Đội ngũ DeepMind tiến hành một số bài kiểm tra loại trừ; trong đó tình nguyện viên cùng mô hình trí tuệ nhân tạo đều được yêu cầu chọn hình ảnh không phù hợp với số hình còn lại. Họ phát hiện nhiều trường hợp con người hoàn toàn đồng ý với một câu trả lời, vậy mà mô hình lại trả lời sai.

Đội ngũ DeepMind bắt tay tinh chỉnh bằng 3 bước. Đầu tiên dùng tệp THINGS để huấn luyện một mô hình tên SigLIP-SO400M (đã được đào tạo trước), cẩn thận bổ sung thông tin nhằm biến nó thành mô hình “giáo viên”. Tiếp theo mô hình “giáo viên” tạo tệp dữ liệu mới khổng lồ tên AligNet, chứa hàng triệu quyết định loại trừ giống con người dựa trên hàng triệu hình ảnh. Cuối cùng AligNet kết hợp đặc điểm nhận thức hình ảnh của con người được dùng để tinh chỉnh các mô hình khác. Kết quả loạt mô hình sau tinh chỉnh đều cho thấy khả năng nhận thức tương đồng với con người tăng lên đáng kể.

Công trình nêu trên rất có ý nghĩa vì công cụ nhận dạng khuôn mặt ngày càng đóng vai trò quan trọng trong đảm bảo an ninh, thực thi pháp luật lẫn hàng loạt ứng dụng hàng ngày. Một sai sót nhỏ cũng có thể đem lại hậu quả nghiêm trọng như để lọt đối tượng nguy hiểm lên máy bay hay tiếp cận hạ tầng chiến lược, xác minh sai danh tính khiến tài khoản ngân hàng bị khóa.

Tuy nhiên, do mô hình thị giác AI nhận thức giống con người hơn, nên có khả năng chúng dễ mắc thiên kiến như con người.

Mô hình thị giác AI sắp có thể ‘nhìn’ giống con người

DeepMind

Google

trí tuệ nhân tạo

mô hình AI

thị giác