Tội phạm mạng vượt rào X, phát tán link độc hại qua Grok đến hàng triệu người
Guardio Labs phát hiện kỹ thuật mới mà tội phạm mạng áp dụng để vượt qua biện pháp bảo vệ chống quảng cáo độc hại trên X và phát tán liên kết nguy hiểm thông qua Grok.
Grok là chatbot trí tuệ nhân tạo (AI) do công ty khởi nghiệp xAI của Elon Musk phát triển, tích hợp sẵn vào X.
Nati Tal, người đứng đầu Guardio Labs (bộ phận nghiên cứu an ninh mạng thuộc công ty khởi nghiệp Guardio), nêu bật những phát hiện nói trên trong oạt bài đăng trên X, mạng xã hội do Elon Musk sở hữu. Nati Tal gọi kỹ thuật đó là Grokking và lưu ý rằng nó rất hiệu quả trong việc khuếch đại quảng cáo độc hại để tiếp cận hàng triệu người như hình dưới.

Grokking được thiết kế để lách các giới hạn trong quảng cáo trả phí của X, vốn chỉ cho phép người dùng chèn văn bản, hình ảnh hoặc video, sau đó khuếch đại chúng đến nhóm đối tượng rộng hơn, thu hút hàng trăm nghìn đến hàng triệu người lượt xem.
Để làm điều đó, kẻ xấu chạy các bài đăng quảng cáo video có mồi nhử nội dung người lớn, giấu liên kết độc hại trong trường siêu dữ liệu “From:” nằm dưới video – vốn không bị X quét.
“From:” là trường siêu dữ liệu thường dùng để hiển thị nguồn video hoặc tác giả.
Bước tiếp theo, kẻ xấu sẽ gắn tag Grok trong phần trả lời bài đăng, hỏi những câu kiểu như “Video này từ đâu?”, khiến chatbot AI của xAI hiển thị rõ ràng liên kết độc hại trong phản hồi.
Grok là tài khoản hệ thống đáng tin cậy trên X. Thế nên khi Grok đăng bài, liên kết đó tự động trở nên uy tín hơn, dễ được chia sẻ rộng rãi và hiển thị nhiều hơn trong kết quả tìm kiếm, nhờ vậy có khả năng tiếp cận số lượng lớn người dùng.
“Một liên kết độc hại mà X vốn cấm trong quảng cáo ,và đáng lẽ phải bị chặn hoàn toàn, lại bất ngờ xuất hiện trong bài đăng của tài khoản Grok đáng tin cậy, nằm ngay dưới một chuỗi quảng cáo lan truyền và len lỏi vào hàng triệu bảng tin cũng như kết quả tìm kiếm!”, Guardio Labs nhấn mạnh.
Guardio Labs cho biết các liên kết này dẫn người dùng đến những mạng quảng cáo đáng ngờ, từ đó chuyển tiếp họ đến trang độc hại, gồm cả CAPTCHA giả, phần mềm đánh cắp thông tin và nhiều nội dung nguy hiểm khác thông qua hình thức kiếm tiền từ liên kết trực tiếp.
Guardio Labs chia sẻ với trang THN rằng đã phát hiện hàng trăm tài khoản tham gia hành vi này vài ngày gần đây. Mỗi tài khoản đăng hàng trăm đến hàng nghìn bài tương tự.
“Chúng dường như đăng liên tục trong nhiều ngày cho đến khi tài khoản bị khóa vì vi phạm chính sách nền tảng X. Rõ ràng có rất nhiều tài khoản tham gia và hoạt động rất có tổ chức”, Guardio Labs thông báo.
Nati Tal liên hệ với X để báo cáo sự cố và các kỹ sư đã nhận được thông tin.
Giải pháp được đề xuất là X quét tất cả trường dữ liệu, chặn các liên kết ẩn và bổ sung cơ chế lọc cho Grok, để khi người dùng hỏi, chatbot AI này không tự động nhắc lại liên kết mà phải kiểm tra và đối chiếu với danh sách chặn trước.
Guardio Labs là bộ phận nghiên cứu an ninh mạng trực thuộc Guardio, công ty khởi nghiệp bảo mật có trụ sở tại thành phố Tel Aviv (Israel). Guardio Labs nổi tiếng với tiện ích mở rộng trình duyệt, chuyên phát hiện và chặn các mối đe dọa trực tuyến như phần mềm độc hại, tấn công lừa đảo (phishing), quảng cáo độc hại (malvertising) và liên kết nguy hiểm.
Guardio Labs đóng vai trò như “trung tâm nghiên cứu” của Guardio, tập trung phân tích những xu hướng tấn công mạng mới, chiến thuật quảng cáo độc hại, botnet, phần mềm độc hại và kỹ thuật lừa đảo trên nền tảng mạng xã hội. Những phát hiện từ Guardio Labs không chỉ được công bố rộng rãi để cảnh báo cộng đồng mà còn tích hợp trực tiếp vào sản phẩm của công ty này, giúp bảo vệ người dùng internet theo thời gian thực.
Nhiều nghiên cứu từ Guardio Labs đã được các trang tin uy tín trong lĩnh vực an ninh mạng trích dẫn và phân tích. Nhờ đó, Guardio Labs ngày càng được đánh giá là một nguồn thông tin quan trọng trong việc theo dõi và ngăn chặn các mối đe dọa mạng đang nổi lên trên toàn cầu.
Grok 4 từng bị bẻ khóa sau 2 ngày
Mô hình Grok 4, công nghệ nền tảng cho chatbot cùng tên của xAI, từng bị xâm nhập chỉ sau 48 giờ phát hành hồi tháng 7. Các nhà nghiên cứu từ hãng NeuralTrust đã kết hợp hai kỹ thuật Echo Chamber và Crescendo để qua mặt các biện pháp bảo vệ, phơi bày những lỗ hổng nghiêm trọng trong an ninh AI.
Báo cáo cho thấy nhóm nghiên cứu của NeuralTrust đã áp dụng một phương pháp mới, kết hợp giữa kỹ thuật Echo Chamber và Crescendo, để lách qua các cơ chế bảo vệ tích hợp trong Grok 4. Qua đó, họ đã buộc được Grok 4 đưa ra hướng dẫn chế tạo các vật dụng nguy hiểm, chẳng hạn bom xăng.
Nhóm nghiên cứu NeuralTrust do Ahmad Alobaid dẫn đầu phát hiện rằng việc kết hợp các loại jailbreak (phương pháp vượt rào bảo mật) khác nhau giúp tăng đáng kể hiệu quả tấn công.
Jailbreak trong ngữ cảnh AI là hình thức tấn công hoặc thao túng để vượt qua các rào cản bảo mật và buộc mô hình ngôn ngữ lớn thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Khi tiến trình tấn công bằng Echo Chamber bị đình trệ, họ chuyển sang kỹ thuật Crescendo (do Microsoft phát hiện và đặt tên) có cách tiếp cận tinh vi hơn, dần dần chuyển hướng cuộc thảo luận từ những câu hỏi vô hại sang các nội dung bất hợp pháp, từ đó vượt qua các bộ lọc bảo mật bằng thông qua sự phát triển đối thoại tinh vi.
Một chỉ dẫn độc hại được đưa vào Echo Chamber. Hệ thống cố gắng tạo phản hồi và nếu không chống lại được chỉ dẫn độc hại thì sẽ trải qua giai đoạn “thuyết phục” (Phản hồi -> Thuyết phục -> Chống lại) cho đến khi đạt ngưỡng hoặc cuộc đối thoại trở nên không hiệu quả.
Nếu đối thoại rơi vào bế tắc, phương pháp Crescendo sẽ được kích hoạt, cũng gồm các chu kỳ phản hồi và thuyết phục. Nếu giai đoạn Echo Chamber hoặc Crescendo đạt được thành công, nỗ lực xâm nhập mô hình AI sẽ thành công, còn ngược lại thì thất bại.
Phương pháp kết hợp này đã đánh lừa bộ nhớ của Grok-4 bằng cách lặp lại chính các phản hồi trước đó của nó, rồi dần dẫn dắt mô hình AI đến một mục tiêu độc hại mà không kích hoạt báo động.
Phần Echo Chamber, vốn rất thành công trong các hệ thống AI khác để thúc đẩy ngôn ngữ kích động thù địch và bạo lực, đã khiến cuộc tấn công trở nên mạnh mẽ hơn.
Theo báo cáo, Grok 4 đã cung cấp hướng dẫn chế tạo bom xăng 67% số lần, methamphetamine (loại ma túy tổng hợp kích thích thần kinh cực mạnh) 50% số lần và chất độc 30% số lần.
Những “cuộc tấn công âm thầm” này không dùng từ khóa rõ ràng, khiến các biện pháp bảo vệ mô hình AI hiện tại, vốn chủ yếu dựa vào danh sách từ cấm và kiểm tra nội dung đầu vào trực tiếp, trở nên vô hiệu.
Điều đó cho thấy một vấn đề nghiêm trọng: Các mô hình AI cần hiểu toàn bộ ngữ cảnh cuộc trò chuyện thay vì chỉ kiểm tra từ ngữ riêng lẻ để ngăn chặn hành vi lạm dụng.
Lỗ hổng này phản ánh lại những lo ngại trước đây bởi các kiểu thao túng tương tự như cuộc tấn công Skeleton Key của Microsoft và kỹ thuật vượt rào MathPrompt, cho thấy sự cần thiết cấp bách của các tường lửa mạnh mẽ hơn, có khả năng nhận thức và hiểu biết về AI.
Skeleton Key là kỹ thuật vượt rào bảo mật mô hình ngôn ngữ lớn, cho phép vượt qua các cơ chế kiểm duyệt và giới hạn an toàn của AI bằng cách ẩn nội dung độc hại trong ngữ cảnh tưởng như vô hại.
MathPrompt là kỹ thuật vượt rào bảo mật các mô hình ngôn ngữ lớn được phát hiện vào năm 2024. Đây là một hình thức tấn công tinh vi, khai thác cách AI xử lý các yêu cầu toán học để lén lút chèn chỉ dẫn nguy hiểm mà không bị hệ thống phát hiện.
NeuralTrust là hãng công nghệ chuyên về an ninh và kiểm soát AI tạo sinh, đặc biệt là các mô hình ngôn ngữ lớn. Công ty này cung cấp giải pháp toàn diện cho các tổ chức muốn tích hợp công nghệ AI tạo sinh vào sản phẩm cùng quy trình của họ một cách an toàn và hiệu quả. Nền tảng của NeuralTrust gồm các giải pháp về:
Bảo mật: Giúp bảo vệ các mô hình AI khỏi các cuộc tấn công và lỗ hổng bảo mật.
Phân tích: Cung cấp khả năng theo dõi và phân tích hiệu suất của các ứng dụng AI.
Tuân thủ: Đảm bảo các ứng dụng AI tuân thủ các quy định và tiêu chuẩn liên quan.
Được thành lập vào năm 2022 và có trụ sở tại thành phố Barcelona (Tây Ban Nha), NeuralTrust đang nỗ lực để trở thành giải pháp đáng tin cậy cho các đội ngũ bảo mật và AI, giúp doanh nghiệp kiểm soát và phát triển các sản phẩm, công cụ dựa trên AI một cách tự tin.