Nghiên cứu gây bất ngờ: ChatGPT, Claude và Gemini cùng thất bại trước bài kiểm tra 90 năm tuổi
Dù có thể viết văn, lập trình và giải quyết nhiều bài toán phức tạp, các mô hình AI hàng đầu như ChatGPT, Claude hay Gemini lại gặp khó khăn trước một bài kiểm tra tâm lý học được phát minh từ gần một thế kỷ trước. Kết quả nghiên cứu mới đang làm dấy lên tranh luận về giới hạn thực sự của AI và khoảng cách còn rất xa tới trí tuệ nhân tạo tổng quát (AGI).
Trong khi các mô hình AI như ChatGPT, Claude hay Gemini liên tục gây ấn tượng với khả năng viết lách, lập trình và giải quyết nhiều bài toán phức tạp, một nghiên cứu mới lại chỉ ra một nghịch lý đáng chú ý: những hệ thống AI tiên tiến nhất hiện nay vẫn có thể "vấp ngã" trước một bài kiểm tra tâm lý học được phát minh từ gần một thế kỷ trước. Kết quả này đang làm dấy lên tranh luận trong giới nghiên cứu về việc liệu AI có thực sự đang tiến gần đến trí tuệ tổng quát nhân tạo (AGI) hay vẫn còn tồn tại những hạn chế nền tảng trong cách chúng "suy nghĩ".

Bài kiểm tra đơn giản nhưng khiến AI lúng túng
Nghiên cứu vừa được công bố trên tạp chí khoa học PNAS Nexus của Nhà xuất bản Đại học Oxford đã sử dụng một bài kiểm tra nổi tiếng trong tâm lý học mang tên Stroop Test. Bài kiểm tra này thoạt nhìn rất đơn giản. Người tham gia được yêu cầu đọc màu sắc của chữ thay vì đọc nội dung từ ngữ. Ví dụ, nếu từ "ĐỎ" được viết bằng mực màu xanh, người tham gia phải trả lời "xanh" thay vì đọc chữ "đỏ".
Với con người, đây là một thử thách về khả năng kiểm soát sự chú ý. Não bộ phải xử lý đồng thời hai luồng thông tin khác nhau: đọc chữ và nhận diện màu sắc. Việc kiềm chế phản xạ đọc chữ để tập trung vào màu sắc đòi hỏi cái gọi là "kiểm soát điều hành" (executive control) của não bộ. Chính yếu tố này được các nhà nghiên cứu sử dụng để đánh giá các mô hình AI hàng đầu như ChatGPT và Claude.
Kết quả cho thấy cả GPT-4o lẫn Claude 3.5 Sonnet đều gặp khó khăn đáng kể khi độ dài bài kiểm tra tăng lên. Trong bài kiểm tra ngắn gồm 5 từ, GPT-4o đạt độ chính xác khoảng 91%. Tuy nhiên, khi số lượng từ tăng lên 10, độ chính xác giảm còn 57%. Đến bài kiểm tra 20 từ, GPT-4o chỉ còn đạt 22% và tụt xuống mức 15% ở bài kiểm tra dài nhất gồm 40 từ.
Claude 3.5 Sonnet có kết quả khá hơn nhưng cũng không tránh khỏi xu hướng tương tự. Mô hình này vẫn giữ được độ chính xác 76% ở bài kiểm tra 20 từ nhưng giảm mạnh xuống còn 24% ở bài kiểm tra 40 từ.
Điều đáng chú ý là con người thường vẫn duy trì độ chính xác khoảng 95% ngay cả khi thực hiện các bài kiểm tra Stroop kéo dài hàng chục phút hoặc hơn.
Theo nhóm nghiên cứu, sự suy giảm hiệu suất này cho thấy các mô hình ngôn ngữ lớn hiện nay vẫn tồn tại những hạn chế đáng kể về khả năng điều khiển sự chú ý và xử lý xung đột thông tin.
Không chỉ là vấn đề của các phiên bản AI cũ
Sau khi nghiên cứu được công bố, nhiều ý kiến trên các diễn đàn công nghệ cho rằng kết quả chưa thực sự thuyết phục vì GPT-4o và Claude 3.5 Sonnet không còn là những mô hình mới nhất. Tuy nhiên, các tác giả cho biết họ đã tiếp tục thử nghiệm với những hệ thống hiện đại hơn như GPT-5, Claude Opus 4.1 và Gemini 2.5 Pro. Kết quả cho thấy hiệu suất có cải thiện nhưng không đáng kể. Những mô hình mới vẫn bộc lộ các điểm yếu tương tự trong việc xử lý bài kiểm tra Stroop. Điều này khiến nhóm nghiên cứu cho rằng vấn đề không nằm ở từng phiên bản AI riêng lẻ mà có thể xuất phát từ chính kiến trúc nền tảng của các mô hình ngôn ngữ hiện nay.
Đối với người dùng thông thường, ChatGPT hay Claude có vẻ rất thông minh vì chúng có thể trả lời câu hỏi, viết văn, dịch thuật hoặc lập trình nhanh chóng. Tuy nhiên, các nhà khoa học nhấn mạnh rằng những kỹ năng này khác xa với khả năng chú ý linh hoạt và kiểm soát nhận thức của con người. Não bộ con người không chỉ ghi nhớ thông tin mà còn liên tục ưu tiên, loại bỏ nhiễu, điều chỉnh mục tiêu và xử lý các xung đột nhận thức trong thời gian thực. Trong khi đó, phần lớn các mô hình AI hiện nay vẫn chủ yếu dựa vào việc dự đoán từ tiếp theo dựa trên dữ liệu đã học. Nói cách khác, AI có thể rất giỏi "ghi nhớ" và "bắt chước", nhưng chưa thực sự sở hữu cơ chế điều hành sự chú ý giống con người.
Các tác giả nghiên cứu cho rằng nếu ngành công nghiệp AI muốn tiến tới AGI, loại trí tuệ nhân tạo có thể suy nghĩ và giải quyết vấn đề tương tự con người, thì việc tăng dung lượng bộ nhớ hoặc mở rộng dữ liệu huấn luyện sẽ không đủ. Thay vào đó, các hệ thống tương lai cần được trang bị những cơ chế kiểm soát nhận thức tinh vi hơn, tương tự cách não người quản lý sự chú ý, ra quyết định và xử lý các tình huống mâu thuẫn. Điều này cũng lý giải vì sao dù AI đang phát triển với tốc độ chóng mặt, nhiều chuyên gia vẫn cho rằng khoảng cách giữa các chatbot hiện nay và một "bộ não nhân tạo" thực thụ vẫn còn rất xa.
Nghiên cứu mới là lời nhắc rằng đằng sau những màn trình diễn ấn tượng của ChatGPT, Claude hay Gemini vẫn tồn tại những giới hạn cơ bản. Và có lẽ, bài toán khó nhất của AI không phải là ghi nhớ nhiều hơn, mà là học cách tập trung và suy nghĩ linh hoạt giống con người.


