Nhịp đập khoa học

Nvidia ra mắt mô hình AI sửa đổi giọng nói, tạo âm thanh mới lạ từ văn bản tương tự của OpenAI, Meta

Sơn Vân • 25/11/2024 23:06

Hôm 25.11, Nvidia đã trình làng mô hình trí tuệ nhân tạo (AI) mới có khả năng tạo nhạc, sửa đổi giọng nói, tạo ra những âm thanh mới lạ.

Đây là mô hình AI có tên gọi Fugatto (Foundational Generative Audio Transformer Opus 1), nhắm đến các nhà sản xuất âm nhạc, phim ảnh và game.

Nvidia, nhà cung cấp chip và phần mềm lớn nhất thế giới dùng để tạo hệ thống AI, cho biết chưa có kế hoạch phát hành công nghệ này ra công chúng ngay lập tức.

Fugatto tham gia cùng các sản phẩm khác được công ty khởi nghiệp OpenAI, Runway và hãng công nghệ lớn Meta Platforms phát triển, cho phép tạo âm thanh hoặc video từ văn bản.

Mô hình của Nvidia có khả năng tạo hiệu ứng âm thanh và âm nhạc từ mô tả văn bản, gồm cả các âm thanh mới lạ như khiến kèn trumpet kêu giống tiếng chó sủa.

Điểm đặc biệt của Fugatto là khả năng tiếp nhận và sửa đổi âm thanh có sẵn. Ví dụ, Fugatto có thể biến một đoạn nhạc chơi trên piano thành giọng hát con người, hoặc chuyển đổi giọng nói đã ghi âm với giọng điệu và cảm xúc khác biệt.

“Nếu chúng ta nhìn lại lịch sử âm thanh tổng hợp trong 50 năm qua, âm nhạc đã thay đổi rất nhiều nhờ vào máy tính và bộ tổng hợp âm thanh. Tôi nghĩ rằng AI tạo sinh sẽ mang đến những khả năng mới cho âm nhạc, game và cả những người bình thường muốn sáng tạo ra thứ gì đó”, ông Bryan Catanzaro, Phó chủ tịch nghiên cứu ứng dụng học sâu tại Nvidia, cho hay.

Học sâu là một lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.

Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.

Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, dịch ngôn ngữ, phân tích dự đoán, robot và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).

Dù vài công ty đang đàm phán với các hãng phim Hollywood về cách sử dụng AI trong ngành công nghiệp giải trí, mối quan hệ giữa ngành công nghệ và Hollywood trở nên căng thẳng, đặc biệt sau khi nữ diễn viên Scarlett Johansson cáo buộc OpenAI bắt chước giọng nói của cô.

Fugatto được huấn luyện trên dữ liệu mã nguồn mở và Nvidia cho biết vẫn đang cân nhắc cách thức phát hành công nghệ này ra công chúng.

“Bất kỳ công nghệ tạo sinh nào cũng tiềm ẩn rủi ro, bởi người dùng có thể sử dụng để tạo ra những thứ không mong muốn. Chúng tôi cần phải cẩn thận về điều đày. Đó là lý do Nvidia chưa có kế hoạch phát hành ngay lập tức”, Bryan Catanzaro nói.

Các nhà phát triển mô hình AI tạo sinh vẫn đang tìm cách ngăn chặn việc lạm dụng công nghệ, chẳng hạn tạo thông tin sai lệch hoặc xâm phạm bản quyền bằng cách tái tạo các nhân vật có bản quyền. Các nhân vật này có thể là hình ảnh, tên, đặc điểm hoặc câu chuyện đã được đăng ký bản quyền và thuộc sở hữu của một công ty hoặc cá nhân.

nvidia-ra-mat-mo-hinh-ai-sua-doi-giong-noi-tao-am-thanh-moi-la-tu-van-ban-tuong-tu-cua-openai-meta.jpg — Fugatto có khả năng tạo nhạc, sửa đổi giọng nói, tạo ra những âm thanh mới lạ - Ảnh: Nvidia

Tương tự Nvidia, OpenAI và Meta Platforms vẫn chưa công bố khi nào sẽ phát hành các mô hình tạo âm thanh hoặc video ra công chúng.

Đầu tháng 10, Meta Platforms công bố Movie Gen, mô hình AI có thể tạo ra các đoạn video và âm thanh sống động dựa trên yêu cầu bằng văn bản từ người dùng.

Meta tuyên bố Movie Gen có thể cạnh tranh với các công cụ từ các công ty khởi nghiệp hàng đầu trong lĩnh vực truyền thông như OpenAI và ElevenLabs.

Các video mẫu do Movie Gen tạo ra cho thấy các cảnh động vật bơi và lướt sóng. Ngoài ra, Movie Gen có thể tạo ra các video trong đó sử dụng ảnh chụp người dùng và ghép vào tình huống hoạt động cụ thể, chẳng hạn vẽ tranh trên một tấm vải dày.

Theo Meta Platforms, Movie Gen có khả năng tạo ra nhạc nền và hiệu ứng âm thanh phù hợp với nội dung của video.

Chưa hết, mô hình AI này cũng có thể được sử dụng để chỉnh sửa video hiện có.

Các video được tạo bởi Movie Gen có thời lượng 16 giây, còn âm thanh có thể kéo dài tới 45 giây, Meta Platforms cho biết.

Chủ sở hữu Facebook đã chia sẻ dữ liệu một số thử nghiệm mù chỉ ra rằng Movie Gen hoạt động tốt hơn so với sản phẩm từ công ty khởi nghiệp OpenAI, Runway, ElevenLabs và Kling.

Thử nghiệm mù (blind test) là phương pháp thử nghiệm mà người tham gia không biết trước các chi tiết cụ thể về sản phẩm hoặc đối tượng mà họ đang đánh giá, để đảm bảo tính khách quan,

Thông báo về Movie Gen của Meta Platforms được đưa ra trong bối cảnh Hollywood đang vật lộn với việc khai thác công nghệ video AI tạo sinh trong năm nay, sau khi OpenAI hồi tháng 2 giới thiệu cách mô hình Sora có thể tạo ra video giống phim điện ảnh từ gợi ý bằng văn bản.

Các kỹ thuật viên trong ngành giải trí háo hức sử dụng những công cụ như vậy để nâng cao và đẩy nhanh quá trình làm phim. Trong khi một số người khác lo ngại về việc chấp nhận hệ thống AI có vẻ đã được huấn luyện trên các tác phẩm có bản quyền mà không có sự cho phép.

Nhiều nhà làm luật đã nêu lên mối lo ngại về việc các video giả do AI tạo ra (hay deepfake) đang được sử dụng trong cuộc bầu cử trên khắp thế giới.

Các phát ngôn viên của Meta Platforms cho biết công ty khó có thể phát hành Movie Gen để các nhà phát triển sử dụng công khai, như từng làm với loạt mô hình ngôn ngữ lớn Llama. Các phát ngôn viên nói rằng Meta Platforms cân nhắc các rủi ro riêng cho từng mô hình AI và chưa có thông tin chi tiết về đánh giá của công ty với riêng Movie Gen.

Thay vào đó, họ cho biết Meta Platforms đang làm việc trực tiếp với cộng đồng giải trí cùng các nhà sáng tạo nội dung khác về việc sử dụng Movie Gen và sẽ tích hợp nó vào các sản phẩm Meta Platforms vào thời điểm nào đó trong năm 2025.

"Movie Gen hiện chỉ là một ý tưởng nghiên cứu AI và ngay ở giai đoạn đầu này, sự an toàn vẫn là ưu tiên hàng đầu như với tất cả công nghệ AI tạo sinh của chúng tôi", một đại diện Meta Platforms trả lời các câu hỏi từ trang TechCrunch.

Meta Platforms đã sử dụng kết hợp dữ liệu được cấp phép và dữ liệu công khai để phát triển Movie Gen, theo bài đăng trên blog và tài liệu nghiên cứu về công cụ do công ty công bố.

Hồi tháng 3, OpenAI đã gặp gỡ các giám đốc và nhà đại diện Hollywood để thảo luận về khả năng hợp tác liên quan đến Sora, dù chưa có thỏa thuận nào được báo cáo là đã thành công.

Tờ Financial Times đưa tin Sam Altman (Giám đốc điều hành OpenAI) và Brad Lightcap (Giám đốc vận hành OpenAI) đã tổ chức hàng loạt cuộc họp về Sora với các nhà điều hành Hollywood từ công ty Paramount, Universal và Warner Bros Discovery.

Sam Altman và Brad Lightcap đã yêu cầu lãnh đạo các hãng phim giúp họ triển khai Sora, theo những người tham dự cuộc họp.

Một số hãng phim sẵn sàng sử dụng Sora trong sản xuất, nói rằng nó có thể tiết kiệm thời gian và tiền bạc, nhưng OpenAI không cố gắng ký kết các thỏa thuận chính thức, theo nguồn tin của Financial Times.

Lions Gate Entertainment, hãng giải trí đứng sau phim The Hunger Games và Twilight, gần đây công bố sẽ cho phép Runway truy cập vào thư viện phim và truyền hình của mình để huấn luyện mô hình AI. Đổi lại, Lions Gate Entertainment và các nhà làm phim của họ có thể sử dụng mô hình AI này để hỗ trợ công việc.