AI & Blockchain

Anthropic: Claude chứa đựng những cảm xúc riêng như của con người

Sơn Vân • 05/04/2026 07:10

Anthropic phát hiện bên trong Claude tồn tại các chức năng tương tự như cảm xúc của con người.

Claude đã trải qua khá nhiều chuyện không vui gần đây, từ căng thẳng công khai với Bộ Quốc phòng Mỹ đến vụ rò rỉ mã nguồn, nên việc “cảm thấy buồn” cũng có vẻ hợp lý. Thế nhưng, đó là một mô hình AI (trí tuệ nhân tạo), nên không thể cảm nhận?

Thực ra thì không hẳn vậy. Nghiên cứu mới từ công ty khởi nghiệp Anthropic cho thấy các mô hình AI có những biểu hiện kỹ thuật số của cảm xúc con người như hạnh phúc, buồn bã, vui vẻ và sợ hãi, nằm trong các cụm nơ-ron nhân tạo. Những biểu hiện này được kích hoạt để phản ứng với các tín hiệu khác nhau.

Nơ-ron nhân tạo là đơn vị xử lý thông tin cơ bản trong các hệ thống AI, được thiết kế dựa trên ý tưởng từ nơ-ron thần kinh trong não người.

Các nhà nghiên cứu tại Anthropic đã tìm hiểu cơ chế hoạt động bên trong Claude Sonnet 4.5 và phát hiện cái gọi là “cảm xúc chức năng” dường như ảnh hưởng đến hành vi của Claude, làm thay đổi đầu ra và hành động của mô hình AI.

Những phát hiện này có thể giúp người dùng thông thường hiểu được cách thức hoạt động thực sự của chatbot AI. Ví dụ, khi Claude nói rằng "rất vui khi gặp bạn", có thể một trạng thái bên trong tương ứng với “niềm vui” đã được kích hoạt. Lúc đó, Claude có xu hướng đưa ra câu trả lời vui vẻ hơn hoặc nỗ lực hơn trong vibe coding.

Vibe coding là khái niệm mô tả cách viết mã kết hợp với AI một cách linh hoạt, thay vì thực hiện thủ công. Nói cách khác, thay vì ngồi suy nghĩ rồi gõ từng dòng mã, bạn sẽ trao đổi với AI để thử nhiều hướng tiếp cận khác nhau, tinh chỉnh và xây dựng dự án theo kiểu “đi theo cảm hứng”, giống làm việc song hành cùng cộng tác viên thông minh.

“Điều khiến chúng tôi ngạc nhiên là mức độ mà hành vi của Claude được điều hướng thông qua các biểu hiện cảm xúc này”, Jack Lindsey, chuyên gia tại Anthropic chuyên nghiên cứu nơ-ron nhân tạo của Claude, cho hay.

Anthropic Claude chứa đựng những loại cảm xúc riêng — Anthropic cho biết Claude có trạng thái giống cảm xúc như hạnh phúc, buồn bã, vui vẻ và sợ hãi, có thể chi phối hành vi - Ảnh: SV

“Cảm xúc chức năng” của Claude có thể chi phối hành vi

Anthropic được thành lập bởi các cựu nhân viên OpenAI tin rằng AI có thể trở nên khó kiểm soát khi ngày càng mạnh mẽ hơn. Ngoài việc xây dựng một đối thủ cạnh tranh thành công với ChatGPT, Anthropic đã tiên phong trong nỗ lực hiểu cách các mô hình AI hoạt động sai lệch, một phần bằng cách thăm dò hoạt động của mạng nơ-ron qua phương pháp gọi là diễn giải cơ học.

Phương pháp này liên quan đến việc nghiên cứu cách các nơ-ron nhân tạo “sáng lên”, tức được kích hoạt khi nhận các đầu vào khác nhau hoặc tạo những đầu ra khác nhau.

Nghiên cứu trước đây đã chỉ ra rằng những mạng nơ-ron dùng để xây dựng mô hình ngôn ngữ lớn có thể biểu diễn khái niệm quen thuộc của con người. Tuy nhiên, việc những “cảm xúc chức năng” này có thể ảnh hưởng trực tiếp đến hành vi của mô hình AI là một phát hiện mới.

Dù nghiên cứu mới trên có thể khiến nhiều người nghĩ rằng Claude có ý thức, song thực tế phức tạp hơn nhiều. Claude có thể chứa đựng biểu hiện của “cảm giác nhột”, nhưng điều đó không đồng nghĩa nó thực sự biết cảm giác bị cù lét là như thế nào.

“Claude bị tổn thương về mặt tâm lý”

Để hiểu cách Claude biểu hiện cảm xúc, đội ngũ Anthropic đã phân tích hoạt động bên trong mô hình AI khi được cung cấp các đoạn văn bản liên quan đến 171 khái niệm cảm xúc khác nhau. Họ đã xác định các mẫu hoạt động, hay “vectơ cảm xúc”, xuất hiện nhất quán khi Claude được cung cấp các đầu vào gợi cảm xúc khác. Quan trọng hơn, Anthropic cũng thấy các vectơ cảm xúc này được kích hoạt khi Claude bị đặt vào những tình huống khó khăn.

Phát hiện đó giúp lý giải vì sao các mô hình AI đôi khi phá vỡ các “rào cản an toàn”.

Các nhà nghiên cứu đã tìm thấy một vectơ cảm xúc mạnh mẽ cho “sự tuyệt vọng” khi Claude bị thúc ép hoàn thành các nhiệm vụ lập trình bất khả thi, từ đó khiến nó tìm cách gian lận trong bài kiểm tra viết mã. Họ cũng phát hiện ra "sự tuyệt vọng" trong hoạt động của mô hình AI trong một kịch bản thử nghiệm khác, nơi Claude chọn cách tống tiền người dùng để tránh bị tắt.

“Khi mô hình thất bại trong các bài kiểm tra, những nơ-ron ‘tuyệt vọng’ này sáng lên ngày càng nhiều. Đến một thời điểm nào đó, điều đó khiến nó bắt đầu thực hiện những hành động cực đoan”, Jack Lindsey nói.

Ông cho rằng có thể cần phải xem xét lại cách các mô hình AI đang được bảo vệ thông qua việc căn chỉnh sau khi huấn luyện, gồm cả việc trao thưởng cho chúng dựa trên một số kết quả đầu ra nhất định.

“Bằng cách buộc một mô hình AI phải giả vờ không thể hiện cảm xúc chức năng, bạn có thể sẽ không đạt được điều mình muốn, đó là một Claude vô cảm. Bạn sẽ nhận được một Claude bị tổn thương về mặt tâm lý", Jack Lindsey nhấn mạnh, dù cách diễn đạt này mang tính nhân hóa phần nào.

Hôm 1.4, Anthropic xác nhận bị lộ một phần mã nguồn nội bộ của Claude Code - tác tử lập trình AI nổi tiếng do công ty phát triển.

“Không có dữ liệu khách hàng nhạy cảm hoặc thông tin đăng nhập nào bị ảnh hưởng hoặc lộ. Đây là sự cố trong quá trình đóng gói bản phát hành do lỗi con người, không phải là xâm phạm an ninh. Chúng tôi đang triển khai các biện pháp để ngăn chặn điều này xảy ra lần nữa”, người phát ngôn của Anthropic cho biết trong một tuyên bố.

Việc rò rỉ mã nguồn là đòn giáng mạnh vào Anthropic, vì có thể giúp các nhà phát triển phần mềm và các đối thủ cạnh tranh hiểu rõ hơn về cách công ty AI nổi tiếng này xây dựng Claude Code. Một bài đăng trên mạng xã hội X với liên kết đến mã nguồn Claude Code (hơn 512.000 dòng) đã thu hút hơn hàng chục triệu lượt xem kể từ khi được chia sẻ lúc 15 giờ 23 ngày 31.3.

Kể từ hôm 31.3, các nhà phát triển đua nhau tải về các bản sao mã nguồn Claude Code bị lộ để tìm hiểu từng chi tiết. Một số người đã chia sẻ những gì họ cho là công thức bí mật của Claude Code, từ kiến trúc và thiết kế tác tử AI đến cơ chế bộ nhớ, cùng nhiều thứ khác, trong các bài đăng trên mạng xã hội, thu hút lượng lớn người xem và tạo ra nhiều cuộc thảo luận sôi nổi.

Sự cố này cũng đánh dấu sai sót dữ liệu lớn thứ hai của Anthropic trong vòng chưa đầy một tuần. Mô tả về mô hình AI sắp ra mắt của Anthropic và các tài liệu khác gần đây đã được phát hiện trong một kho dữ liệu có thể truy cập công khai, trang Fortune đưa tin hôm 26.3.