Voice Engine tạo bản sao giọng nói con người giống đến kỳ lạ, OpenAI chưa triển khai rộng rãi vì sợ rủi ro

Nhịp đập khoa học - Ngày đăng : 08:35, 30/03/2024

Theo OpenAI, Voice Engine sử dụng đoạn âm thanh giọng nói chỉ 15 giây của người thật để tạo ra bản sao giọng giống đến kỳ lạ.
Nhịp đập khoa học

Voice Engine tạo bản sao giọng nói con người giống đến kỳ lạ, OpenAI chưa triển khai rộng rãi vì sợ rủi ro

Sơn Vân 30/03/2024 08:35

Theo OpenAI, Voice Engine sử dụng đoạn âm thanh giọng nói chỉ 15 giây của người thật để tạo ra bản sao giọng giống đến kỳ lạ.

Hôm 29.3, OpenAI đã phát hành bản xem trước Voice Engine, công cụ trí tuệ nhân tạo (AI) tạo giọng nói số mà họ cho biết có thể tạo ra giọng nói nghe tự nhiên dựa trên mẫu âm thanh 15 giây.

Đây là sản phẩm mới nhất của OpenAI, công ty khởi nghiệp ở thành phố San Francisco (Mỹ) đứng sau chatbot nổi tiếng ChatGPT, trình tạo hình ảnh DALL-E và mô hình chuyển văn bản thành video Sora.

Thông qua một bài đăng trên blog, OpenAI cho biết đã thử nghiệm Voice Engine trong hàng loạt các ứng dụng như hỗ trợ đọc cho trẻ em, dịch ngôn ngữ và phục hồi giọng nói cho bệnh nhân ung thư.

Một số người dùng mạng xã hội đã phản ứng bằng cách nêu bật các hành vi sử dụng sai mục đích có thể xảy ra, gồm cả hành vi gian lận tiềm ẩn bằng bắt chước giọng nói trái phép (deepfake).

OpenAI cho biết đang tạm dừng việc phát hành Voice Engine rộng rãi hơn vì có khả năng bị lạm dụng, đặc biệt là trong năm bầu cử.

"Chúng tôi nhận ra rằng việc tạo ra giọng nói giống với con người mang lại những rủi ro nghiêm trọng, đặc biệt là trong một năm bầu cử. Chúng tôi đang hợp tác với các đối tác ở Mỹ và quốc tế từ các cơ quan chính phủ, truyền thông, giải trí, giáo dục, xã hội dân sự và xa hơn nữa để đảm bảo rằng đang kết hợp phản hồi của họ trong quá trình xây dựng", OpenAI viết trong bài đăng trên blog.

OpenAI tiết lộ phát triển Voice Engine lần đầu tiên vào cuối năm 2022 và bí mật sử dụng nó trong các sản phẩm khác. Công ty đang sử dụng Voice Engine để cung cấp các tính năng "đọc to" của ChatGPT, cũng như API chuyển văn bản thành giọng nói của công ty.

Cuối năm 2023, OpenAI bắt đầu mở rộng công cụ AI này ra bên ngoài, hợp tác với "một nhóm nhỏ các đối tác đáng tin cậy" để thử nghiệm Voice Engine cho các nội dung như tài liệu giáo dục dành cho trẻ em, dịch ngôn ngữ và phục hồi giọng nói trong y tế.

OpenAI nhấn mạnh rằng các đối tác của họ phải tuân theo chính sách nghiêm ngặt để sử dụng Voice Engine, chẳng hạn nhận được sự đồng ý của mọi cá nhân bị bắt chước giọng nói và thông báo cho người nghe rằng giọng nói được tạo ra bởi AI.

“Chúng tôi đang thực hiện một cách tiếp cận thận trọng và sáng suốt để phát hành Voice Engine rộng rãi hơn do nguy cơ lạm dụng giọng nói tổng hợp. Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm các giọng nói tổng hợp và cách xã hội có thể thích ứng với những khả năng mới này. Dựa trên những cuộc trò chuyện này và kết quả của các cuộc thử nghiệm quy mô nhỏ, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc có nên triển khai Voice Engine trên quy mô lớn hay không và như thế nào”, OpenAI nhấn mạnh trong bài viết.

voice-engine-tao-ban-sao-giong-noi-con-nguoi-giong-den-ky-la-openai-chua-dam-trien-khai-rong-vi-so-rui-ro.jpeg
Voice Engine có thể tạo ra giọng nói nghe tự nhiên dựa trên mẫu âm thanh 15 giây - Ảnh: Internet

Dù vẫn chưa chắc chắn liệu có phát hành Voice Engine rộng rãi cho công chúng hay không, OpenAI đã thúc đẩy các nhà hoạch định chính sách và nhà phát triển thực hiện các bước để ngăn chặn việc sử dụng sai công nghệ này.

Ví dụ, OpenAI đề xuất lập một "danh sách giọng nói không được phép" để ngăn chặn việc bắt chước giọng nói của những người nổi tiếng, chẳng hạn chính trị gia hoặc người nổi tiếng mà không được sự đồng ý của họ.

Công ty cũng khuyến nghị các ngân hàng ngừng sử dụng xác thực bảo mật dựa trên giọng nói và những nhà nghiên cứu phát triển các kỹ thuật để theo dõi xem giọng nói là thật hay giả.

Vào tháng 1, cuộc gọi tự động (robocall) sử dụng âm thanh giả của Tổng thống Mỹ - Joe Biden đã lan truyền tới bang New Hampshire, kêu gọi các cử tri ủng hộ đảng Dân chủ ở nhà và không đi bỏ phiếu để lựa chọn ứng cử viên Tổng thống Mỹ của đảng này.

Nội dung cuộc gọi được ghi âm sẵn này kêu gọi người dân ở New Hampshire "để dành" lá phiếu cho đến cuộc bầu cử Tổng thống Mỹ vào tháng 11.2024 và rằng việc họ đi bỏ phiếu ngày 23.1 tại bang này sẽ chỉ giúp cho nỗ lực của đảng Cộng hòa để đưa ông Donald Trump quay trở lại Nhà Trắng một lần nữa.

Nội dung ghi âm còn kêu gọi cử tri ở New Hampshire ghi tên Tổng thống Joe Biden trên các lá phiếu sẽ được phát ra trong cuộc bầu cử sơ bộ tại bang này.

Bà Julie Chavez Rodriguez (người quản lý chiến dịch tranh cử của ông Biden) cho biết các cuộc gọi tự động đã phát đi "thông tin sai lệch", đồng thời cũng coi đây là nỗ lực nhằm phá rối cuộc bầu cử sơ bộ.

Tổng thống Biden không có tên trên lá phiếu trong cuộc bầu cử sơ bộ ngày 23.1 tại New Hampshire. Lý do vì đảng Dân chủ đã thay đổi lịch trình tiến hành các cuộc bầu cử sơ bộ trong năm 2024, theo đó South Carolina được đưa lên thành bang tiến hành bầu cử sơ bộ đầu tiên của đảng Dân chủ, thay vì tổ chức tại New Hampshire như truyền thống.

Ông John Formella, người đứng đầu cơ quan tư pháp New Hampshire, cho rằng đây là hành động trái pháp luật nhằm cản trở cuộc bầu cử sơ bộ tại bang và gây sức ép đối với cử tri nơi đây.

John Formella nói đơn vị giám sát luật bầu cử của New Hampshire đã tiến hành điều tra vụ việc. Hiện chưa thể xác định số lượng cuộc gọi như vậy được phát tán tại bang này. Tuy nhiên, bà Kathy Sullivan, cựu Chủ tịch nhánh đảng Dân chủ tại New Hampshire, nói nhiều người đã kể lại việc nhận được cuộc gọi tự động sử dụng AI để giả mạo giọng nói của Tổng thống Biden.

Kathy Sullivan nói cuộc gọi như vậy đã tự động kết nối với điện thoại di động cá nhân mà không được sự cho phép của bà.

Tại Mỹ, robocall thường là những cuộc gọi được ghi âm sẵn tới những số điện thoại cố định, điện thoại di động, thậm chí đến cả những số điện thoại hỗ trợ khẩn cấp, với mục đích chính là thu hồi nợ tín dụng hoặc tiếp thị quảng cáo.

Sau sự việc đó, Ủy ban Truyền thông Liên bang Mỹ (FCC) đã bỏ phiếu nhất trí cấm các cuộc gọi tự động được tạo bởi AI mà không có sự đồng ý từ người nhận.

OpenAI, Microsoft, Meta và 17 hãng công nghệ ký hiệp định chống AI can thiệp vào bầu cử toàn cầu

Giữa tháng 2, một nhóm gồm 20 hãng công nghệ đã đồng ý hợp tác để ngăn chặn nội dung lừa đảo do AI tạo ra can thiệp vào các cuộc bầu cử trên toàn cầu trong năm 2024.

Sự phát triển nhanh chóng của AI tạo sinh (có thể tạo ra văn bản, hình ảnh và video trong vài giây dựa trên gợi ý của người dùng) đã làm gia tăng lo ngại rằng công nghệ này có thể được sử dụng để tác động đến các cuộc bầu cử lớn trong năm 2024, khi hơn một nửa dân số thế giới chuẩn bị đi bầu cử.

Theo Reuters, các bên đã ký kết hiệp định công nghệ, được công bố tại Hội nghị An ninh Munich (Đức), gồm cả các công ty đang xây dựng các mô hình AI tạo sinh được sử dụng để tạo nội dung như OpenAI, Microsoft và Adobe. Các bên ký kết khác là những nền tảng truyền thông xã hội sẽ phải đối mặt với thách thức loại bỏ nội dung có hại khỏi trang web của họ, chẳng hạn Meta Platforms, TikTok và X (trước đây gọi là Twitter).

Thỏa thuận gồm các cam kết hợp tác phát triển công cụ phát hiện hình ảnh, video và âm thanh gây hiểu lầm do AI tạo ra, tạo các chiến dịch nâng cao nhận thức của cộng đồng nhằm hướng dẫn cử tri về nội dung lừa đảo và thực hiện hành động với nội dung đó trên dịch vụ của họ.

Các hãng cho biết công nghệ để xác định nội dung do AI tạo hoặc xác nhận nguồn gốc của nó có thể gồm cả hình mờ hoặc nhúng siêu dữ liệu.

Hiệp định không nêu rõ thời gian thực hiện các cam kết hoặc cách mỗi công ty sẽ thực hiện chúng.

Nick Clegg, Chủ tịch phụ trách các vấn đề toàn cầu của Meta Platforms, nhận xét: “Điều tôi nghĩ là hữu ích ở đây là sự đa dạng của các công ty tham gia ký kết hiệp định. Việc các nền tảng riêng lẻ phát triển các chính sách phát hiện, nguồn gốc, dán nhãn, đánh dấu bản quyền... là điều tốt, nhưng nếu không có một cam kết rộng hơn để thực hiện chúng theo cách liên kết hoạt động chung, thì chúng ta sẽ bị mắc kẹt với mớ hỗn độn các cam kết khác nhau”.

Theo Dana Rao, Giám đốc Ủy thác của Adobe, bất chấp sự phổ biến của công cụ tạo văn bản như ChatGPT, các hãng công nghệ sẽ tập trung vào việc ngăn chặn tác hại của ảnh, video và âm thanh AI, một phần vì người dân có xu hướng hoài nghi hơn với văn bản.

Ông nói: “Có một sự kết nối cảm xúc với âm thanh, video và hình ảnh. Bộ não của bạn được lập trình để tin vào loại phương tiện truyền thông đó".

Sơn Vân