Pindrop triển khai phần mềm lật tẩy cuộc gọi lừa đảo deepfake

Trong bối cảnh gian lận deepfake do trí tuệ nhân tạo (AI) tạo ngày càng gia tăng, Pindrop đã tìm ra cách phát hiện sự khác biệt giữa giọng nói của con người và máy móc.

Đó là một ngày bình thường trong tháng 1 khi Jennifer DeStefano quyết định trả lời cuộc gọi từ số lạ. Ở đầu dây bên kia, giọng giống con gái 15 tuổi của Jennifer DeStefano đang khóc nức nở và cầu xin sự giúp đỡ: “Mẹ ơi, những người đàn ông xấu xa này đang bắt con, hãy giúp con, giúp con với”.

Khi DeStefano bắt đầu hoảng sợ, một giọng nói mới vang lên: Kẻ được cho đã bắt cóc con gái cô và đòi khoản tiền chuộc 1 triệu USD.

DeStefano đang hốt hoảng khi nhận chỉ thị đòi tiền chuộc từ kẻ bắt cóc thì một người bạn gọi điện cho chồng của cô. Thực chất, con gái cô an toàn và đang nằm trên giường.

Cô gái ở đầu bên kia của cuộc điện thoại, khóc nức nở trong giọng nói và mang hơi hướng đặc trưng của con gái DeStefano, thực ra không có thật. Đó là một trò lừa đảo tổng hợp, được tạo ra bởi AI.

Khi generative AI (trí tuệ nhân tạo tạo sinh) trở nên mạnh mẽ hơn và dễ tiếp cận hơn, những trường hợp gian lận deepfake như vậy đang gia tăng. Trong quá trình lấy lời khai của DeStefano trước Ủy ban Tư pháp Thượng viện Mỹ vào tháng 6, cô kể lại câu chuyện thứ hai liên quan đếncuộc gọi deepfake tương tự nhưng thuyết phục hơn, định lừa mẹ cô.

Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Theo cuộc khảo sát vào tháng 4 do nhà sản xuất phần mềm xác minh ID Regula thực hiện, 37% doanh nghiệp toàn cầu đã gặp phải vấn đề gian lận giọng nói tổng hợp vào năm ngoái; 25% ngân hàng báo cáo hơn 100 vụ gian lận tổng hợp chỉ riêng trong 2022.

Giữa môi trường được thiết kế để đánh lừa thị giác và tai của chúng ta, Pindrop đã thiết kế và triển khai phần mềm chống lừa đảo deepfake. Pindrop làm việc với một số tập đoàn, đặc biệt là các ngân hàng và nhà bán lẻ lớn, dẫn đầu về bảo mật và xác thực giọng nói. Các mối đe dọa mà Pindrop gặp phải trong những nỗ lực này đã bắt đầu gia tăng gần đây khi lừa đảo deepfake, được thúc đẩy bởi generative AI, ngày càng trở nên tốt hơn và phổ biến hơn.

Deepfake là một từ ghép của deep learning (học sâu) và fake (giả mạo), thường chỉ các phương pháp và công nghệ sử dụng trí tuệ nhân tạo (AI) và học sâu để tạo ra hoặc chỉnh sửa nội dung video và âm thanh sao cho giống người thật. Cụ thể, deepfake thường được sử dụng để thay đổi gương mặt và giọng điệu của các người nổi tiếng trong video hoặc tạo ra video giả mạo họ trong các tình huống hoặc hành động mà họ không thực sự tham gia.

Deepfake đã trở thành một vấn đề nghiêm trọng trong thế giới truyền thông và giải trí, vì được sử dụng để tạo ra thông tin sai lệch, lừa dối người xem, hoặc xâm phạm quyền riêng tư của người khác. Tuy nhiên, cũng có các ứng dụng sáng tạo của deepfake trong lĩnh vực điện ảnh, video truyền hình và giảng dạy.

Vijay Balasubramaniyan, Giám đốc điều hành và đồng sáng lập của Pindrop, nói với tờ TheStreet trong cuộc phỏng vấn: “Chúng tôi tin tưởng mạnh mẽ rằng với sự bùng nổ của AI, mối đe dọa từ deepfake sẽ phá vỡ mọi niềm tin”.

Ông cho biết các ngân hàng đang đấu tranh để xác định xem cuộc gọi đến từ một khách hàng thực sự, hay đó là kết quả của kế hoạch do AI tạo ra. Những bức ảnh, video và âm thanh deepfake của các chính trị gia, các nhà lãnh đạo thế giới và người nổi tiếng cũng đang tăng lên khiến nhiều người không thể phân biệt được.

Được Microsoft phát hành vào tháng 1, VALL-E có thể tổng hợp giọng nói của một người trong đoạn âm thanh chỉ 3 giây. Những người có tai bình thường gần như không thể phân biệt được với âm thanh giữa deepfake và thật.

pindrop-trien-khai-phan-mem-lat-tay-cuoc-goi-lua-dao-deepfake.jpg — Trong bối cảnh gian lận deepfake do AI tạo ngày càng gia tăng, Pindrop đã triển khai phần mềm phát hiện sự khác biệt giữa giọng nói của con người và máy móc - Ảnh: Internet

Phần mềm của Pindrop hoạt động như thế nào?

Được hỗ trợ bởi các thuật toán học máy, phần mềm của Pindrop đưa ra biện pháp bảo vệ hai phần chống lại những kẻ lừa đảo tiềm năng. Phần đầu tiên xác định xem một giọng điệu cụ thể có phải là của người hay của máy móc, và phần thứ hai đảm bảo rằng đó là của người phù hợp.

Để trang bị cho phần đầu tiên đó, Pindrop sử dụng các nhà khoa học dữ liệu kiêm chuyên gia ngôn ngữ học tập trung vào sự phát triển của ngôn ngữ học con người. Con người có một cách nói đặc biệt mà AI (thiếu các thành phần sinh học như dây thanh âm và miệng) gặp khó khăn trong việc tái tạo.

Máy móc không thể xác định được sự khác biệt giữa một số âm thanh và chữ cái nên thường gây nhầm lẫn ở những lĩnh vực như vậy. Hơn nữa, bản chất tạm thời của lời nói con người là thứ mà máy móc phải vật lộn để tái tạo.

Vijay Balasubramaniyan lấy ví dụ: “Khi bạn nói 'Xin chào Paul', miệng tôi mở ra khi tôi nói ‘xin chào’ và miệng tôi sẽ đóng lại khi nói 'Paul'. Tốc độ mà tôi có thể làm được có những hạn chế về mặt vật lý. Những chiếc máy này (được sử dụng để lừa đảo deepfake) không quan tâm đến bất kỳ điều gì trong số đó, mà chỉ tập trung vào việc đảm bảo rằng tai của bạn nghĩ rằng đó là con người ở đầu bên kia".

Những cuộc tấn công dạng này, mà con người thường không thể phân biệt được, nhưng có thể được phát hiện bởi mạng của Pindrop, vốn đã được đào tạo để quét những điểm bất thường như vậy. Với hàng ngàn mẫu giọng nói có sẵn trong mỗi giây của một bản ghi nhất định (kênh 16.000 hertz cung cấp 16.000 mẫu giọng nói của ai đó mỗi giây), Pindrop có thể xác định khả năng cuộc gọi là giả.

Pindrop có một hệ thống đối kháng bổ sung được thiết kế để tìm cách đánh bại bộ xác thực giọng nói của hãng, khiến phần mềm phòng thủ hàng đầu này “đi trước nhiều thế hệ trước bất kỳ cuộc tấn công nào đã biết”.

Khi VALL-E ra mắt, hệ thống của Pindrop (không cần đào tạo thêm) vẫn có độ chính xác 99% trong việc phát hiện gian lận tổng hợp đến từ phần mềm mới.

Pindrop đang được sử dụng ra sao?

Vijay Balasubramaniyan cho biết phần mềm này hoạt động như một loại đèn giao thông. Nhân viên tại trung tâm cuộc gọi sẽ thấy bản phân tích thời gian thực của cuộc gọi, được thiết kế để nhanh chóng xác định xem giọng nói ở đầu bên kia là thực, chính xác hay tổng hợp.

Dù có loại phần mềm giúp đỡ những người gặp phải tình huống tương tự như sự cố deepfake khủng khiếp của DeStefano, Pindrop vẫn chưa đến đạt đến giai đoạn phát hành sản phẩm như vậy cho người tiêu dùng cá nhân.

Amit Gupta, Phó chủ tịch quản lý sản phẩm của Pindrop, nói với tờ TheStreet rằng để giải quyết trường hợp sử dụng như vậy, phần mềm của Pindrop cần phải có trên smartphone của mọi người, phân tích mọi cuộc gọi, điều mà nhiều người tiêu dùng có thể không cấp quyền truy cập (vì sợ lộ nội dung cuộc gọi). Amit Gupta cho biết công ty sẽ cần thiết lập một số hình thức hợp tác với các nhà sản xuất điện thoại di động và nhà mạng để cung cấp dịch vụ này.

Amit Gupta nói rằng Pindrop hiện chưa tìm kiếm mối quan hệ hợp tác như vậy. Song, ông cho biết Pindrop có thể và đang áp dụng phần mềm của mình để xác minh video deepfake trên mạng xã hội cho những khách hàng quan tâm.

“Chúng tôi chắc chắn tự hào rằng đang làm cho thế giới tốt đẹp hơn một chút mỗi ngày. Có lẽ không nhiều, nhưng khi chúng tôi phát hiện những kẻ lừa đảo, khi bảo vệ cả các doanh nghiệp khỏi gian lận, thì người dùng cuối sẽ được bảo vệ", Amit Gupta thổ lộ.