50 lãnh đạo an ninh mạng kêu gọi Mỹ gỡ hạn chế với Claude Fable 5 và Mythos 5
Các lãnh đạo an ninh mạng tại nhiều công ty lớn Mỹ, trong đó có Nvidia và Adobe, đã đề nghị chính quyền Trump dỡ bỏ các hạn chế với hai mô hình AI mạnh nhất của Anthropic.
Họ cho rằng các lệnh cấm này đang cản trở nỗ lực ngăn chặn sự lan rộng của các cuộc tấn công mạng.
Lá thư được gửi sau khi Mỹ ra quyết định hôm 12/6, yêu cầu Anthropic ngừng cho người nước ngoài truy cập hai mô hình Claude Fable 5 và Claude Mythos 5 vì lo ngại an ninh quốc gia.
Trước đó, Anthropic từng cảnh báo về khả năng an ninh mạng tiên tiến của Claude Mythos và không phát hành rộng rãi mô hình AI này nhằm tránh nguy cơ gây hại.
Ngày 9/6, Anthropic trình làng Claude Fable 5, mô hình AI cùng cấp độ năng lực với Claude Mythos 5, sẽ được cung cấp cho khách hàng doanh nghiệp và người dùng trả phí. Công ty AI hàng đầu thế giới cho biết việc phát hành Claude Fable 5 rộng rãi trở nên khả thi nhờ các lớp bảo vệ mới có khả năng chặn phản hồi trong những lĩnh vực rủi ro cao như an ninh mạng và sinh học.
“Claude Mythos là mô hình tốt nhất hiện nay để tìm lỗi bảo mật và lỗi mã nguồn”
Theo lá thư được hơn 50 lãnh đạo an ninh ký hôm 14/6, các hạn chế mới từ Mỹ sẽ làm giảm khả năng của ngành an ninh mạng trong việc phát hiện và sửa lỗi phần mềm, trong bối cảnh nhiều công cụ AI khác đang giúp hacker khai thác lỗ hổng dễ dàng hơn.
Lá thư cho rằng Claude Fable 5 và Claude Mythos 5 không phải là những công cụ duy nhất có khả năng tìm lỗi bảo mật và biến lỗ hổng thành phương tiện khai thác. Những mô hình AI của đối thủ, trong đó có Kimi 2.7 của Moonshot AI (Trung Quốc), cũng có năng lực tương tự.
“Claude Mythos gần như chắc chắn là mô hình tốt nhất hiện nay để tìm lỗi bảo mật và lỗi mã nguồn, nhưng chỉ là một bước tiến nhỏ so với các mô hình AI khác đã được công khai”, ông Joshua Saxe, Giám đốc công nghệ tại hãng bảo mật AI Abundant Security và là một trong những người ký thư, nói trong cuộc phỏng vấn.
Lệnh cấm của Mỹ được đưa ra sau khi các nhà nghiên cứu tại Amazon phát hiện một lỗ hổng dạng jailbreak tiềm tàng trong Claude Fable 5. Theo nguồn tin của trang FT, lỗ hổng này có thể giúp người dùng vượt qua các cơ chế an toàn của AI để khai thác thông tin về những điểm yếu bảo mật trong phần mềm. Amazon đã chia sẻ phát hiện này với Anthropic trước tiên.
Jailbreak là kỹ thuật hoặc cách đặt câu hỏi đặc biệt để lách các quy tắc an toàn của mô hình AI, khiến nó tiết lộ thông tin nhạy cảm, nội dung bị hạn chế, hoặc hoạt động ngoài phạm vi được thiết kế ban đầu.
Andy Jassy, Giám đốc điều hành Amazon, đã trao đổi về vấn đề trên với các quan chức Mỹ hôm 12/6. Tuy nhiên, FT cho biết ông chủ yếu bày tỏ những lo ngại rộng hơn về năng lực của các mô hình AI tiên tiến, chứ không chỉ nhắm riêng vào Anthropic. Amazon hiện đã đầu tư khoảng 13 tỉ USD vào Anthropic.
"Không hiếm khi các chính phủ tìm kiếm ý kiến tư vấn của chúng tôi về các rủi ro an ninh tiềm tàng. Tuy nhiên, chúng tôi không tiết lộ nội dung các cuộc trao đổi", Amazon chia sẻ.
Điều đáng chú ý là Claude Fable 5 đã được các cơ quan thuộc Bộ Thương mại Mỹ đánh giá và xem xét về mặt an toàn chỉ vài ngày trước khi Anthropic phát hành.
Anthropic phản đối việc chính quyền Trump nhắm riêng vào các mô hình của mình, cho rằng khả năng bị jailbreak không phải chỉ xuất hiện ở Claude Fable 5 hay Mythos 5. Theo công ty, những lỗ hổng tương tự cũng tồn tại ở các mô hình AI cạnh tranh, gồm cả của OpenAI.
Các chuyên gia an ninh cho biết việc khắc phục hoàn toàn dạng lỗ hổng này có thể mất nhiều tuần nghiên cứu và phát triển, nhưng vẫn không có gì đảm bảo rằng các lỗ hổng mới sẽ không tiếp tục xuất hiện. Theo một nguồn tin của FT, Anthropic đang hợp tác chặt chẽ với chính phủ Mỹ để tìm tiếng nói chung và xác định các bước tiếp theo.

Anthropic đứng giữa bài toán khó về an ninh quốc gia
Các lãnh đạo cấp cao Anthropic dự kiến sẽ gặp quan chức Bộ Thương mại Mỹ tại Washington hôm 15/6, theo nguồn tin của Reuters.
Theo Anthropic, chính phủ Mỹ tin rằng có thể vượt qua lớp bảo vệ được thiết kế để ngăn Claude Fable 5 bị dùng vào việc tìm lỗ hổng phần mềm. Tuy nhiên, Anthropic lập luận rằng chỉ vì có nguy cơ bị jailbreak trong một phạm vi hẹp thì không nên cắt quyền truy cập vào một mô hình AI đang được hàng trăm triệu người sử dụng.
Lá thư cũng nhấn mạnh quan điểm này, cho rằng Anthropic đã xây dựng các lớp bảo vệ vững chắc. Việc rút lại các năng lực này có thể trở nên “nguy hiểm”, nhất là khi các mô hình mã nguồn mở của Trung Quốc chỉ đi sau những mô hình tốt nhất của Mỹ vài tháng.
Lá thư cũng cho rằng Trung Quốc nhiều khả năng đã tiếp cận những năng lực vượt xa những gì công khai bên ngoài.
“Mọi quy định đều cần dựa trên bằng chứng, được định nghĩa rõ ràng và áp dụng nhất quán. Song trong trường hợp này, không tiêu chuẩn nào trong số đó được tuân thủ”, theo Alex Stamos - người khác ký vào lá thư và hiện là Giám đốc sản phẩm tại Corridor.
“Đây là phản ứng thái quá của chính phủ”, ông nói thêm. Theo Alex Stamos, dựa trên những cuộc trao đổi của ông với các bên liên quan, Anthropic và bên thứ ba phát hiện lỗ hổng đang bất đồng về mức độ nghiêm trọng của vấn đề.
Corridor là công ty khởi nghiệp về an ninh mạng và AI của Mỹ, chuyên phát triển các công cụ giúp phát hiện lỗ hổng bảo mật trong phần mềm. Công ty tập trung vào việc giúp các nhà phát triển viết mã an toàn hơn ngay từ đầu, thay vì chờ đến khi sản phẩm hoàn thiện mới kiểm tra bảo mật.
Tuần trước, hãng an ninh mạng CrowdStrike cho biết các nhóm hacker có liên hệ với Trung Quốc là mối đe dọa gián điệp lớn nhất với các hãng công nghệ trong năm qua.
CrowdStrike cảnh báo các cuộc tấn công mạng từ những thực thể có liên hệ với Trung Quốc đang gia tăng, với mục tiêu đánh cắp công nghệ AI nhằm thu hẹp khoảng cách với Mỹ.
Anthropic, công ty AI được định giá 965 tỉ USD và đang chuẩn bị IPO, trước đây từng nhiều lần va chạm với chính phủ Mỹ về quyền truy cập vào các mô hình AI của mình cũng như tác động của chúng với an ninh quốc gia.
Cuối tháng 2, chính quyền Trump đã chỉ đạo các cơ quan liên bang Mỹ ngừng hợp tác với Anthropic và xếp công ty vào diện rủi ro chuỗi cung ứng. Lý do là Anthropic không cho phép quân đội Mỹ sử dụng mô hình AI của mình cho hoạt động giám sát người dân hàng loạt và vũ khí tự động.