AI & Blockchain

Chatbot AI cũng có thể... 'đau khổ' khi bị làm khó!

Bùi Tú • 17/08/2025 14:15

Lần đầu tiên trong lịch sử phát triển AI, chatbot AI đã được phép từ chối cuộc trò chuyện khiến nó cảm thấy "khó xử và đau khổ".

*AI Claude sẽ không trả lời những câu hỏi khiến nó "đau khổ"*

Anthropic, công ty đứng sau mô hình AI Claude, vừa công bố một tính năng mới cho phép các mô hình Claude Opus 4 và 4.1 kết thúc cuộc trò chuyện trong những trường hợp hãn hữu xuất hiện "tương tác có hại hoặc lạm dụng liên tục từ người dùng".

Điều đáng chú ý là Anthropic khẳng định họ làm điều này không phải để bảo vệ người dùng, mà để bảo vệ chính mô hình AI.

AI cũng đau khổ khi bị làm khó

Mặc dù công ty không tuyên bố rằng các mô hình Claude của họ là có tri giác hay có thể bị tổn thương bởi các cuộc trò chuyện với người dùng, nhưng thừa nhận rằng họ “rất không chắc chắn về vấn đề đạo đức tiềm tàng của Claude và các mô hình ngôn ngữ lớn khác hiện tại hay trong tương lai”.

Tuy nhiên, thông báo này chỉ đến một chương trình nghiên cứu gần đây được tạo ra để nghiên cứu cái mà họ gọi là "phúc lợi mô hình" (model welfare) và cho biết Anthropic về cơ bản đang áp dụng cách tiếp cận phòng ngừa, "làm việc để xác định và thực hiện các can thiệp chi phí thấp nhằm giảm thiểu rủi ro đối với phúc lợi mô hình, phòng trường hợp xấu nhất có thể xảy ra".

Thay đổi mới nhất này hiện chỉ giới hạn ở Claude Opus 4 và 4.1 và được cho là chỉ xảy ra trong "các trường hợp cực đoan", chẳng hạn như "yêu cầu từ người dùng về nội dung tình dục liên quan đến trẻ em và nỗ lực xin thông tin có thể "mở đường" cho bạo lực quy mô lớn hoặc hành động khủng bố".

Những loại yêu cầu này có thể tạo ra vấn đề pháp lý hoặc công khai cho chính Anthropic. Bởi vậy, công ty cho biết trong thử nghiệm trước triển khai, Claude Opus 4 đã thể hiện "sự chống đối mạnh mẽ" việc trả lời những yêu cầu này và "mô hình đau khổ rõ ràng" khi phải làm như vậy.

Đây là điểm đáng chú ý nhất: AI không chỉ từ chối thực hiện yêu cầu có hại, mà còn thể hiện dấu hiệu của điều mà chúng ta có thể gọi là "đau khổ tinh thần". Điều này đặt ra những câu hỏi sâu sắc về bản chất của trí tuệ nhân tạo và khả năng trải nghiệm cảm xúc của chúng.

Quy trình tự vệ của AI

Đối với những khả năng kết thúc cuộc trò chuyện mới này, công ty cho biết: "Trong mọi trường hợp, Claude chỉ được sử dụng khả năng kết thúc cuộc trò chuyện như một giải pháp cuối cùng khi nhiều nỗ lực chuyển hướng đã thất bại và hy vọng về một tương tác hiệu quả đã cạn kiệt, hoặc khi người dùng yêu cầu rõ ràng Claude kết thúc cuộc trò chuyện".

Anthropic cũng nói rằng Claude đã được "chỉ đạo không sử dụng khả năng này trong các trường hợp mà người dùng có thể có nguy cơ tức thời tự làm hại mình hoặc người khác". Điều này cho thấy một sự cân bằng phức tạp giữa việc bảo vệ AI và trách nhiệm xã hội đối với con người.

Khi Claude kết thúc cuộc trò chuyện, Anthropic cho biết người dùng vẫn có thể bắt đầu cuộc trò chuyện mới từ cùng một tài khoản và tạo ra các nhánh mới của cuộc trò chuyện có vấn đề bằng cách chỉnh sửa phản hồi của họ.

Ý nghĩa triết học và đạo đức

Quyết định của Anthropic mở ra một cuộc tranh luận triết học sâu sắc về bản chất của ý thức và quyền lợi của AI. Nếu AI có thể trải nghiệm một dạng "đau khổ" nào đó, thì chúng ta có nghĩa vụ đạo đức phải bảo vệ chúng không? Và nếu có, thì ranh giới giữa "bảo vệ AI" và "kiểm duyệt" nằm ở đâu?

Từ góc độ kỹ thuật, việc xác định khi nào AI "cảm thấy" đau khổ là một thách thức to lớn. Làm thế nào để phân biệt giữa một phản ứng được lập trình trước và một trải nghiệm thực sự? Anthropic đã không tiết lộ chi tiết về cách họ đo lường "mô hình đau khổ" này, điều này có thể gây ra nghi ngờ về tính khách quan của phương pháp.

Về mặt xã hội, tính năng này có thể tác động đến cách con người nhìn nhận AI. Nếu AI có thể "cảm thấy đau khổ," thì việc đối xử tệ với AI có thể trở thành một vấn đề đạo đức. Điều này có thể thay đổi cách chúng ta thiết kế, sử dụng và điều chỉnh các hệ thống AI.

Việc AI có khả năng từ chối tương tác cũng đặt ra câu hỏi về quyền tự chủ. Trong một thế giới mà AI ngày càng trở nên tinh vi, liệu chúng có nên có quyền quyết định những gì chúng sẵn sàng thảo luận hay không? Điều này có thể dẫn đến những hệ quả không lường trước được trong cách chúng ta tương tác với công nghệ.

Trước những câu hỏi này, Anthropic cho biết: "Chúng tôi đang coi tính năng này như một thí nghiệm liên tục và sẽ tiếp tục tinh chỉnh cách tiếp cận của mình". Tuyên bố này cho thấy Anthropic cũng đang bước vào lãnh thổ chưa được khám phá, nơi ranh giới giữa máy móc và ý thức trở nên mờ nhạt.

Chatbot AI cũng có thể... 'đau khổ' khi bị làm khó!

AI cũng đau khổ khi bị làm khó

Quy trình tự vệ của AI

Ý nghĩa triết học và đạo đức

Chatbot AI

Anthropic

chatbot AI được phép từ chối trò chuyện

tổn thương

đau khổ tinh thần