Giải mã việc siêu mô hình AI Claude bị buộc ‘ngắt phích’: Nỗi lo mang tên jailbreak?
Chỉ sau 72 giờ ra mắt, Claude Fable 5 cùng Mythos 5 đã bị Anthropic vô hiệu hóa trên toàn cầu theo chỉ thị kiểm soát xuất khẩu từ chính phủ Mỹ. Vụ việc xoay quanh nỗi lo “jailbreak” và đặt ra câu hỏi mới về quyền kiểm soát các mô hình AI tiên tiến.

Claude Fable 5 vừa được Anthropic mở cho công chúng, nhưng chỉ sau 72 giờ đã bị vô hiệu hóa cùng Claude Mythos 5 trên toàn cầu. Lý do là chính phủ Mỹ yêu cầu đình chỉ quyền truy cập với mọi công dân nước ngoài, kể cả nhân viên Anthropic.
Nỗi lo mang tên “jailbreak”
Trung tâm của tranh cãi là “jailbreak”, tức kỹ thuật vượt qua lớp bảo vệ của mô hình AI. Theo Anthropic, chính phủ Mỹ lo ngại Fable 5 có thể bị bẻ khóa, từ đó cho phép người dùng khai thác mô hình trong các tác vụ an ninh mạng nhạy cảm, đặc biệt là phát hiện lỗ hổng phần mềm.
Anthropic phản bác rằng kỹ thuật được trình diễn chỉ giúp phát hiện một số lỗ hổng nhỏ, đã biết từ trước và xuất hiện trong một ngữ cảnh rất hẹp. Công ty cũng cho rằng các mô hình công khai khác có thể tìm ra lỗi tương tự mà không cần vượt rào bảo vệ.
Điểm bất đồng nằm ở tiêu chuẩn an toàn. Với nhà chức trách, một mô hình quá mạnh có thể bị lạm dụng để tăng tốc tấn công mạng. Với Anthropic, việc yêu cầu mô hình không bao giờ bị jailbreak là điều không thực tế, vì hiện chưa có hệ thống bảo vệ AI nào hoàn hảo tuyệt đối.
Anthropic cho biết trước khi ra mắt Fable 5, công ty đã phối hợp với chính phủ Mỹ, Viện An toàn AI của Anh, các tổ chức bên thứ ba và nhóm nội bộ để thử tấn công mô hình trong hàng nghìn giờ. Kết quả, theo công ty, chưa có ai tìm ra một “jailbreak phổ quát” có thể vô hiệu hóa rộng rãi lớp bảo vệ của Fable 5.
Dù vậy, Anthropic thừa nhận các jailbreak hẹp vẫn có thể tồn tại. Vì thế, công ty chọn chiến lược “phòng thủ nhiều lớp”, nhằm khiến việc vượt rào trở nên khó hơn, tốn kém hơn và dễ bị phát hiện hơn thông qua giám sát.
Hai mô hình, một nền tảng, hai cấp độ kiểm soát
Để hiểu vì sao cả Fable 5 và Mythos 5 cùng bị tắt, cần nhìn vào cấu trúc của hai mô hình. Theo Anthropic, Fable 5 và Mythos 5 dùng cùng một mô hình nền tảng. Sự khác biệt nằm ở lớp bảo vệ và đối tượng được phép sử dụng.

Fable 5 là phiên bản được mở rộng cho công chúng, nhưng có các bộ lọc nhằm chặn hoặc chuyển hướng những yêu cầu nhạy cảm trong các lĩnh vực như an ninh mạng, sinh học, hóa học và chưng cất mô hình. Với một số truy vấn rủi ro cao, hệ thống có thể chuyển sang mô hình kém năng lực hơn để giảm nguy cơ bị lạm dụng.
Mythos 5 lại được thiết kế cho nhóm người dùng đáng tin cậy hơn, chủ yếu trong chương trình Project Glasswing. Đây là nhóm gồm các đối tác an ninh mạng, nhà cung cấp hạ tầng và một số tổ chức được lựa chọn, những bên cần năng lực mạnh hơn để phát hiện, phân tích và vá lỗi trong các hệ thống phần mềm phức tạp. Fable 5 là phiên bản mở rộng có rào chắn dày hơn, Mythos 5 là phiên bản mạnh hơn trong một số ngữ cảnh, nhưng bị giới hạn quyền truy cập.
Chính năng lực kép này khiến mô hình trở nên nhạy cảm. Một công cụ giỏi tìm lỗ hổng có thể giúp các chuyên gia phòng thủ bảo vệ hệ thống ngân hàng, hạ tầng năng lượng, mạng chính phủ hoặc phần mềm mã nguồn mở. Nhưng trong tay sai người, cùng năng lực đó có thể hỗ trợ tấn công mạng tinh vi hơn. Đây là bài toán quen thuộc của công nghệ lưỡng dụng, nhưng AI làm nó phức tạp hơn vì quy mô triển khai lớn và tốc độ sử dụng gần như tức thì.
Cú sốc đúng thời điểm Anthropic chuẩn bị IPO
Vụ việc xảy ra đúng lúc Anthropic đang ở giai đoạn nhạy cảm. Công ty vừa nộp hồ sơ S-1 kín lên Ủy ban Chứng khoán Mỹ để chuẩn bị khả năng niêm yết. Vì vậy, việc Fable 5 bị vô hiệu hóa chỉ vài ngày sau khi ra mắt có thể khiến khách hàng, đối tác và nhà đầu tư lo ngại về rủi ro pháp lý của các sản phẩm AI tiên tiến.
Tác động với người dùng đến gần như ngay lập tức. Những nhóm đang thử nghiệm Fable 5 hoặc Mythos 5 buộc phải quay về các mô hình cũ hơn. Do lệnh chặn được thực thi ngay ở hạ tầng cung cấp mô hình, các doanh nghiệp tích hợp qua API cũng không có lựa chọn thay thế trực tiếp ở cùng cấp năng lực.
Về chính sách, đây có thể là một tiền lệ quan trọng. Trước đây, kiểm soát xuất khẩu AI của Mỹ chủ yếu nhắm vào chip, thiết bị bán dẫn và năng lực tính toán. Vụ Fable 5 cho thấy phạm vi kiểm soát có thể mở rộng sang chính các mô hình AI đã được huấn luyện và triển khai thương mại.
Câu hỏi về quyền lực nhà nước và Big Tech AI
Vụ việc đặt Anthropic vào thế khó. Công ty lâu nay luôn nhấn mạnh an toàn AI và ủng hộ việc chính phủ can thiệp nếu một mô hình được triển khai không an toàn. Nhưng khi Fable 5 và Mythos 5 bị chặn bằng một chỉ thị khẩn cấp, Anthropic lại cho rằng quyết định này thiếu minh bạch, thiếu quy trình rõ ràng và chưa dựa trên bằng chứng kỹ thuật đầy đủ.
Theo Anthropic, vấn đề không nằm ở việc quản lý AI, mà ở cách chính phủ áp dụng biện pháp quá mạnh, khiến một mô hình thương mại bị tắt trên toàn cầu. Công ty cảnh báo nếu chỉ một jailbreak hẹp cũng đủ để buộc thu hồi mô hình, các nhà phát triển AI tiên tiến có thể bị đình trệ trong những lần ra mắt tiếp theo.
Ở chiều ngược lại, chính phủ Mỹ có lý do để thận trọng. Một mô hình AI mạnh về an ninh mạng có thể giúp phòng thủ hệ thống tốt hơn, nhưng cũng có thể bị lạm dụng để tìm và khai thác lỗ hổng. Vì vậy, Fable 5 không chỉ là một sản phẩm công nghệ, mà còn bị xem như năng lực nhạy cảm trong cạnh tranh địa chính trị.
Tiền lệ mới cho cuộc đua AI toàn cầu
Biện pháp của Mỹ có thể tạo ra tiền lệ lớn cho ngành AI. Nếu quyền truy cập vào các mô hình mạnh nhất bị giới hạn theo quốc tịch, đồng minh, nhà nghiên cứu quốc tế và doanh nghiệp toàn cầu đều có nguy cơ bị ảnh hưởng. Thị trường AI cũng có thể bị chia tách, khi mỗi quốc gia tìm cách phát triển mô hình riêng để giảm phụ thuộc vào công ty Mỹ.
Vụ Fable 5 cho thấy cuộc đua AI đã vượt khỏi phạm vi của một sản phẩm công nghệ thông thường. Một mô hình mới không chỉ cần mạnh, rẻ và dễ dùng, mà còn phải đáp ứng các yêu cầu về an ninh quốc gia, kiểm soát xuất khẩu và trách nhiệm khi bị lạm dụng.
Ba ngày tồn tại công khai của Claude Fable 5 trở thành lời cảnh báo rõ ràng: AI càng mạnh, cánh cửa triển khai càng hẹp. Trong kỷ nguyên mới, giá trị của một mô hình không chỉ nằm ở việc nó làm được gì, mà còn ở việc ai được phép sử dụng và nhà nước có thể can thiệp đến đâu.


