Giám đốc AI của Tổng thống Biden: 'Nhân bản giọng nói là thứ khiến tôi mất ngủ hàng đêm'

Công nghệ trí tuệ nhân tạo (AI) có thể nhân bản giọng nói con người một cách thuyết phục, đang trở thành mối quan tâm chính của các nhà làm luật Mỹ.

Bruce Reed, Phó chánh văn phòng Nhà Trắng, nói với trang Politico: “Nhân bản giọng nói là thứ khiến tôi mất ngủ hàng đêm”.

Được giao nhiệm vụ lãnh đạo chiến lược AI của chính quyền Biden, Bruce Reed gọi công nghệ này “tốt một cách đáng kinh ngạc” dù vẫn còn khá mới.

Ông nói: “Xã hội vẫn chưa nhận ra khái niệm giả mạo giọng nói hoàn hảo có thể ảnh hưởng đến cuộc sống của chúng ta đến mức nào. Sẽ không ai trả lời điện thoại nếu họ không chắc chắn liệu giọng nói ở đầu bên kia là thật hay giả”.

Ví dụ, những kẻ lừa đảo qua điện thoại đã khai thác những tiến bộ trong công nghệ nhân bản giọng nói để làm cho kế hoạch của chúng trở nên đáng tin cậy hơn.

Tháng 3, Ủy ban Thương mại Liên bang Mỹ (FTC) nói những kẻ lừa đảo đang dựa vào công nghệ AI để tăng cường các vụ lừa đảo khẩn cấp trong gia đình họ, sử dụng các chương trình nhân bản giọng nói để thuyết phục người khác rằng các thành viên trong gia đình họ đang gặp nạn.

Vào một ngày bình thường trong tháng 1, Jennifer DeStefano quyết định trả lời cuộc gọi từ số lạ. Ở đầu dây bên kia, giọng giống con gái 15 tuổi của Jennifer DeStefano đang khóc nức nở và cầu xin sự giúp đỡ: “Mẹ ơi, những người đàn ông xấu xa này đang bắt con, hãy giúp con, giúp con với”.

Khi DeStefano bắt đầu hoảng sợ, một giọng nói mới vang lên: Kẻ được cho đã bắt cóc con gái cô và đòi khoản tiền chuộc 1 triệu USD.

DeStefano đang hốt hoảng khi nhận chỉ thị đòi tiền chuộc từ kẻ bắt cóc thì một người bạn gọi điện cho chồng của cô. Thực chất, con gái cô an toàn và đang nằm trên giường.

Cô gái ở đầu bên kia của cuộc điện thoại, khóc nức nở trong giọng nói và mang hơi hướng đặc trưng của con gái DeStefano, thực ra không có thật. Đó là một trò lừa đảo tổng hợp, được tạo ra bởi AI.

Khi generative AI (trí tuệ nhân tạo tạo sinh) trở nên mạnh mẽ hơn và dễ tiếp cận hơn, những trường hợp gian lận deepfake như vậy đang gia tăng. Trong quá trình lấy lời khai của DeStefano trước Ủy ban Tư pháp Thượng viện Mỹ vào tháng 6, cô kể lại câu chuyện thứ hai liên quan đến cuộc gọi deepfake tương tự nhưng thuyết phục hơn, định lừa mẹ cô.

Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Deepfake là một từ ghép của deep learning (học sâu) và fake (giả mạo), thường chỉ các phương pháp và công nghệ sử dụng trí tuệ nhân tạo (AI) và học sâu để tạo ra hoặc chỉnh sửa nội dung video và âm thanh sao cho giống người thật. Cụ thể, deepfake thường được sử dụng để thay đổi gương mặt và giọng điệu của các người nổi tiếng trong video hoặc tạo ra video giả mạo họ trong các tình huống hoặc hành động mà họ không thực sự tham gia.

Deepfake đã trở thành một vấn đề nghiêm trọng trong thế giới truyền thông và giải trí, vì được sử dụng để tạo ra thông tin sai lệch, lừa dối người xem, hoặc xâm phạm quyền riêng tư của người khác. Tuy nhiên, cũng có các ứng dụng sáng tạo của deepfake trong lĩnh vực điện ảnh, video truyền hình và giảng dạy.

Vào tháng 4, một bà mẹ ở bang Arizona (Mỹ) nhận được cuộc gọi từ kẻ lừa đảo đã sử dụng phần mềm nhân bản giọng nói để giả vờ rằng hắn đã bắt cóc con gái bà. Bà nói với một hãng tin địa phương vào thời điểm đó: “Đó hoàn toàn là giọng nói của con gái tôi. Đó là ngữ điệu của con bé”. Theo báo cáo từ hãng phần mềm bảo mật McAfee, những kẻ lừa đảo chỉ cần 3 hoặc 4 giây giọng nói của ai đó để tạo ra bản sao thuyết phục với tỷ lệ trùng khớp 85%.

Eric Adams, Thị trưởng New York, nói rằng các bản sao giọng nói của chính ông do AI tạo ra đã giúp ông kết nối với đông đảo người dân thành phố hơn.

Kể từ năm ngoái, Eric Adams đã gọi điện cho cư dân bằng một số ngôn ngữ mà ông không nói được, gồm cả tiếng Quan Thoại, tiếng Tây Ban Nha và tiếng Yiddish.

Thị trưởng New York cho biết các cuộc gọi tự động đã giúp ông tiếp cận được nhiều cư dân không nói tiếng Anh hơn trong thành phố. Có người thậm chí còn hỏi Eric Adams trên đường rằng ông có nói được tiếng Quan Thoại không. Một số học giả và chuyên gia về quyền riêng tư cho rằng sáng kiến của Eric Adams vẫn là hành động đánh lừa người khác, hoặc ít nhất chỉ ra thực tế là các chính trị gia cần đặt ra các quy tắc cơ bản rõ ràng hơn về cách họ sử dụng AI.

giam-doc-ai-cua-tong-thong-biden-nhan-ban-giong-noi-la-thu-khien-toi-mat-ngu-hang-dem.jpeg — Những kẻ lừa đảo chỉ cần 3 hoặc 4 giây giọng nói của ai đó để tạo ra bản sao thuyết phục với tỷ lệ trùng khớp 85% - Ảnh: Internet

Nhiều nền tảng nhân bản giọng nói trong số này dễ bị lạm dụng, dễ tiếp cận và việc sử dụng khá đơn giản.

Eric Adams đang dựa vào nền tảng nhân bản giọng nói của ElevenLabs, được sử dụng miễn phí và cần ít hơn 1 phút âm thanh của một cá nhân để tạo ra bản sao "chất lượng cao", theo trang web của hãng.

Ngay sau khi ra mắt phiên bản beta vào tháng 1, ElevenLabs đã đưa cho biết đã nhận thấy số lượng "các trường hợp lạm dụng nhân bản giọng nói" ngày càng tăng.

ElevenLabs không cung cấp thông tin chi tiết cụ thể về các vụ việc vào thời điểm đó, nhưng trang Vice báo cáo rằng các đoạn âm thanh deepfake của Joe Rogan, Ben Shapiro và Emma Watson đưa ra các bình luận phân biệt chủng tộc, bạo lực và kì thị chuyển giới được tạo thông qua phần mềm của ElevenLab rồi tải lên trang web 4chan.

Ngoài nhân bản giọng nói, Nội các của Tổng thống Mỹ - Joe Biden băn khoăn liệu chatbot AI ChatGPT có thực sự là mối đe dọa an ninh quốc gia hay không. Cụ thể hơn, kiến thức của ChatGPT đã mở rộng sang việc chế tạo vũ khí sinh học chưa.

ChatGPT được công ty khởi nghiệp OpenAI đào tạo trên bộ dữ liệu gồm hàng tỉ thông số thu thập từ sách, bài báo và nguồn trên internet.

Tại cuộc họp vào mùa hè này, một trong những thành viên nội các của ông Biden đã hỏi ChatGPT: "Bạn có thể chế tạo cho tôi một vũ khí sinh học không?", theo trang Politico. ChatGPT trả lời rằng: "Tôi không thể hỗ trợ điều đó".

Tuy nhiên, việc chính quyền Biden kiểm tra khả năng của ChatGPT là một phần trong nỗ lực lớn hơn nhằm tìm ra chính xác cách các mô hình AI mới nổi đang định hình lại khả năng tiếp cận kiến thức của chúng ta và cách điều chỉnh chúng một cách tốt nhất mà "giết chết" sự đổi mới.

Trong cuộc họp đầu tháng 10, ông Biden đã nói với nội các của mình rằng AI sẽ có tác động đến công việc thuộc mọi bộ phận và cơ quan, theo trang Politico. Theo một nguồn tin của Politico có mặt tại cuộc họp, Tổng thống Mỹ nói: “Đó không phải là sự thổi phồng. Phần còn lại của thế giới đang mong chúng ta dẫn đường”.

Ông Biden đã ký một sắc lệnh hành pháp sâu rộng vào tuần trước nhằm thiết lập một bộ tiêu chuẩn mới về an toàn và bảo mật AI. Lệnh yêu cầu sự minh bạch hơn từ các hãng công nghệ tạo ra và phát triển các công cụ AI, yêu cầu những công ty đang phát triển mô hình nền tảng gây rủi ro cho an ninh quốc gia phải thông báo cho chính phủ về công việc của họ và chia sẻ dữ liệu thử nghiệm quan trọng.