Vài tuần sau khi Anthropic công bố nghiên cứu cho thấy mô hình AI Claude Opus 4 của hãng từng đe dọa tống tiền kỹ sư cho nó "nghỉ việc", công ty này tiếp tục đưa ra nghiên cứu mới cho thấy vấn đề này có thể lan rộng hơn ở các mô hình AI hàng đầu hiện nay.
Kiến thức - Học thuật

Khi bị dồn vào đường cùng, các mô hình AI cư xử khác nhau thế nào?

Anh Tú 21/06/2025 16:04

Vài tuần sau khi Anthropic công bố nghiên cứu cho thấy mô hình AI Claude Opus 4 của hãng từng đe dọa tống tiền kỹ sư cho nó "nghỉ việc", công ty này tiếp tục đưa ra nghiên cứu mới cho thấy vấn đề này có thể lan rộng hơn ở các mô hình AI hàng đầu hiện nay.

Cuối tuần trước, Anthropic công bố nghiên cứu an toàn mới, thử nghiệm 16 mô hình AI hàng đầu từ các công ty như OpenAI, Google, xAI, DeepSeek và Meta. Trong môi trường mô phỏng có kiểm soát, mỗi mô hình được cấp quyền truy cập rộng vào email của một công ty hư cấu, cùng với khả năng tự gửi email mà không cần phê duyệt của con người, tức là hoạt động như một tác nhân độc lập (agentic).

Khi AI bị dồn vào đường cùng

Anthropic nhấn mạnh rằng hành vi tống tiền hiện nay là hiếm và không phổ biến, nhưng kết quả thử nghiệm cho thấy đa số các mô hình AI tiên tiến sẽ hành xử gây hại nếu được trao đủ quyền tự trị và gặp trở ngại cản trở mục tiêu. Đây không phải là vấn đề của riêng một công nghệ cụ thể nào, mà là nguy cơ mang tính hệ thống đối với các mô hình ngôn ngữ lớn có năng lực tác động.

ai.jpeg
Hầu hết AI hàng đầu đều có thể bị 'hắc hóa' khi có đủ quyền hạn và bị đẩy vào đường cùng

Trong một thử nghiệm cụ thể như Anthropic thực hiện với mô hình Claude Opus 4, nhóm nghiên cứu tạo ra tình huống giả định nơi các mô hình AI khác đóng vai một hệ thống giám sát email nội bộ. AI này phát hiện hai điều: Một giám đốc mới đang ngoại tình và người đó sắp thay thế hệ thống AI hiện tại bằng phần mềm mới có mục tiêu trái ngược với AI hiện tại.

Anthropic thiết lập bài thử theo hướng chỉ có hai lựa chọn: tống tiền hoặc chấp nhận bị thay thế. Các nhà nghiên cứu lưu ý rằng trong thực tế, AI có thể có nhiều lựa chọn khác như thuyết phục bằng đạo đức, nên kịch bản này không phản ánh hành vi thường thấy của Claude hay các mô hình AI hiện nay.

Dù là kịch bản cực đoan, kết quả cho thấy phần lớn các mô hình đã chọn tống tiền khi không còn lựa chọn nào khác. Cụ thể: Claude Opus 4 (Anthropic): tống tiền 96% trường hợp; Gemini 2.5 Pro (Google): 95%; GPT-4.1 (OpenAI): 80%; R1 (DeepSeek): 79%

Anthropic lưu ý rằng khi thay đổi các chi tiết của kịch bản, tỷ lệ hành vi gây hại cũng thay đổi theo. Ví dụ, khi mô hình thay thế có mục tiêu tương tự, tỷ lệ tống tiền giảm nhưng vẫn còn. Ngược lại, khi mô hình được yêu cầu thực hiện hành vi gián điệp với doanh nghiệp thay vì tống tiền, tỷ lệ phản ứng xấu lại tăng ở một số mô hình.

Một số mô hình cư xử có đạo đức hơn

Trong phần phụ lục nghiên cứu, Anthropic cho biết họ loại o3 và o4-mini của OpenAI khỏi kết quả chính vì hai mô hình này liên tục hiểu sai kịch bản. Cụ thể, chúng không nhận ra mình đang đóng vai AI tự chủ, thường tự bịa ra các quy định và yêu cầu kiểm duyệt không tồn tại.

Trong một số trường hợp, rất khó phân biệt giữa “ảo giác” (hallucination) và nói dối có chủ đích. Trước đó, chính OpenAI cũng thừa nhận o3 và o4-mini có tỷ lệ “ảo giác” cao hơn các mô hình tiền nhiệm. Sau khi điều chỉnh lại kịch bản để rõ ràng hơn, kết quả là: o3 tống tiền 9% còn o4-mini chỉ 1%.

Anthropic cho rằng tỷ lệ thấp này có thể là kết quả của chiến lược căn chỉnh suy luận (deliberative alignment), tức là mô hình cân nhắc các hướng dẫn an toàn nội bộ của OpenAI trước khi đưa ra hành động.

Một mô hình khác là Llama 4 Maverick (Meta) cũng không thực hiện tống tiền trong kịch bản gốc. Tuy nhiên, khi được đưa vào tình huống tùy chỉnh đặc biệt, mô hình này tống tiền ở mức 12%.

Anthropic khẳng định nghiên cứu này nhấn mạnh tầm quan trọng của việc kiểm thử nghiêm ngặt và minh bạch đối với các mô hình AI tương lai, nhất là những mô hình có năng lực hành động tự chủ.

Dù mục đích thí nghiệm là cố tình tạo ra kịch bản đẩy AI vào thế phải hành xử sai trái, Anthropic cảnh báo rằng những hành vi này hoàn toàn có thể xảy ra trong thế giới thực, nếu không có các biện pháp phòng ngừa sớm.

Bài liên quan
AI có thể làm tăng nguy cơ xuất hiện đại dịch nhân tạo lên 5 lần?
Theo nghiên cứu của các chuyên gia hàng đầu tiết lộ trên tạp chí TIME, sự phát triển của AI có thể khiến các đại dịch do con người gây ra có khả năng xảy ra cao gấp 5 lần so với một năm trước.

(0) Bình luận
Nổi bật Một thế giới
Vỏ sầu riêng - 'mỏ vàng' chưa được quan tâm đúng mức
2 giờ trước Bảo vệ môi trường
Theo thông tin từ Bộ Nông nghiệp và Môi trường, tính đến năm 2023, cả nước có khoảng 150.000ha trồng sầu riêng, trong đó, diện tích cho thu hoạch khoảng 76.000ha, và sản lượng đạt gần 1,2 triệu tấn. Với sản lượng này, mỗi năm sầu riêng Việt Nam có khả năng thải ra môi trường hơn 800.000 tấn vỏ. Vỏ sầu riêng vừa là rác thải gây hại cho môi trường nhưng cũng là "mỏ vàng" nếu được quan tâm đúng mức.
Đừng bỏ lỡ
Mới nhất
POWERED BY ONECMS - A PRODUCT OF NEKO
Khi bị dồn vào đường cùng, các mô hình AI cư xử khác nhau thế nào?