Sách nói AI của Apple còn lâu mới vượt qua người kể chuyện

Nhịp đập khoa học - Ngày đăng : 18:52, 06/01/2023

Bạn không thể nhầm lẫn hai giọng AI của Apple Books với giọng điệu ấm áp, biểu cảm từ những người kể chuyện nổi tiếng như Stephen Fry hay Julia Whelan.

Nếu bạn là một người hâm mộ sách nói (audiobook) thì Apple vừa mang đến cho bạn hương vị của tương lai bằng cách tung ra lô sách đầu tiên do AI đọc. Song giọng điệu đọc sách giống robot cho thấy giọng được yêu thích như con người sẽ còn một thời gian nữa mới xuất hiện.

Bạn có thể tìm sách nói có giọng AI trong ứng dụng Apple Books bằng cách tìm kiếm với từ khóa AI narration. Thao tác này sẽ hiển thị danh sách sách lãng mạn hoặc tiểu thuyết (cả miễn phí và trả phí) đi kèm với mô tả narrated by Apple Books (được Apple Books đọc lại).

Apple Books cung cấp hai loại giọng AI - giọng nữ cao có tên Madison và giọng nam trung tên là Jackson. Cả hai đều có giọng Mỹ và hiện chỉ đọc bằng tiếng Anh.

Bạn có thể cảm nhận giọng của chúng bằng cách nhấn vào nút Preview bên dưới một trong các tựa sách nói hiển thị trong Apple Books. Ngay lúc này, chắc chắn có một chất lượng robot, nhân tạo với cả hai giọng AI của Apple. Bạn sẽ không nhầm chúng với giọng điệu ấm áp, biểu cảm của những người kể chuyện nổi tiếng như Stephen Fry hay Julia Whelan trong thời gian sắp tới.

sach-noi-ai-cua-apple-con-lau-moi-vuot-qua-nguoi-ke-chuyen.jpg
Tìm sách nói trong Apple Books
sach-noi-ai-cua-apple-con-lau-moi-vuot-qua-nguoi-ke-chuyen1.jpg
Hai loại giọng AI của Apple Books

Apple cho biết giọng AI của họ đã được phát triển để làm cho sách nói dễ tiếp cận hơn với tất cả mọi người. Song, người dùng cũng làm cho ngành công nghiệp sách nói trị giá hàng tỉ USD dễ tiếp cận hơn với gã khổng lồ công nghệ. Apple Books mới chỉ là bước khởi đầu cuộc chiến khốc liệt của Apple với những đối thủ như Amazon và Spotify.

Hiện tại, hầu hết chúng ta sẽ thấy giọng đọc AI xuất hiện hạn chế với sách của các nhà xuất bản độc lập nhỏ hơn. Song trong tương lai có thể bùng nổ về số lượng sách nói cho người đọc trên tất cả thiết bị, vì tường thuật kỹ thuật số mở ra một thị trường mới cho các nhà xuất bản và tác giả, vốn trước đây không đủ khả năng chuyển đổi từ bản in sang âm thanh.

Thế nhưng phản hồi từ các nhà xuất bản lớn hơn và diễn viên lồng tiếng cũng có thể làm chậm sự gia tăng của robot đọc sách. Máy đọc sách điện tử Kindle của Amazon đã chính thức mất khả năng chuyển văn bản thành giọng nói cách đây vài năm, ngay cả khi có các giải pháp thay thế trong menu Accessibility. Quyết định đó một phần do vấn đề bản quyền và sách nói được coi như tác phẩm nghệ thuật riêng biệt hợp pháp.

Thuộc sở hữu của Amazon, Audible cũng viết rất nhiều về những người đọc nào phù hợp với các loại sách khác nhau và cách các nhà xuất bản chọn những người phù hợp. Blog của Audible viết rằng "khía cạnh quan trọng nhất khi đề cập đến sách nói là giọng phù hợp với giọng điệu và thể loại của cuốn sách". Điều này hơi khó đạt được với Apple Books khi mới chỉ có hai giọng đọc AI.

Audible là kho sách nói khổng lồ với nhiều tựa sách thuộc rất nhiều lĩnh vực từ lịch sử, làm giàu, truyện kiếm hiệp, tiên hiệp, sắc hiệp, truyện tuổi teen, ngôn tình, đến các tác phẩm truyện kinh dị văn học, thơ, tiểu thuyết nổi tiếng.

Audible cũng nói rằng "các diễn viên lồng tiếng kinh nghiệm có thể phân biệt khá dễ dàng giữa các đặc điểm giọng với cao độ, ngữ điệu, âm lượng và trọng âm". Đây chắc chắn là điều mà các nhân vật AI cần phải luyện giọng chuyên sâu và có thể tham gia một số lớp học ban đêm về phản ánh cảm xúc.

Tính năng mới của Apple Books rõ ràng chỉ là bước khởi đầu cho sự bùng nổ tất yếu của công nghệ giọng nói AI. Thời điểm thực sự quan trọng với sách nói là khi AI có thể đóng giả diễn viên lồng tiếng nổi tiếng một cách thuyết phục thay vì đọc nội dung kiểu robot. Đó là một bước nhảy vọt có thể không còn quá xa, dựa trên các buổi giới thiệu gần đây từ Amazon.

Deepfake là cụm từ được kết hợp từ “deep learning” và “fake”, là phương thức tạo ra các sản phẩm công nghệ giả (fake) dưới dạng âm thanh, hình ảnh hoặc thậm chí cả video bởi AI tinh vi.

Deepfake hiện không chỉ giới hạn ở các video mạo danh diễn viên Morgan Freeman hoặc Tom Cruise y như thật kể cả hình ảnh và giọng nói, mà công nghệ giọng nói do AI hỗ trợ cũng đang phát triển nhanh chóng.

Các ứng dụng web lan truyền như Uberduck cho phép bạn tạo bài phát biểu bằng giọng nói của các cựu tổng thống hoặc nhân vật hoạt hình. Trong khi Amazon năm ngoái đã trình diễn kỹ năng mới đáng sợ của trợ lý giọng nói Alexa, có thể đọc truyện giả tưởng The Wizard of Oz cho đứa trẻ nghe bằng giọng của bà nó.

Google Wavenet (thuật toán AI của Google có thể bắt chước y hệt giọng nói con người) cũng thúc đẩy công nghệ phát triển và giọng nói AI sẽ ngày càng thuyết phục hơn. Hiện tại, các rào cản với việc áp dụng rộng rãi sách nói có thể sẽ mang tính pháp lý và đạo đức hơn là công nghệ. Thế nhưng, những người đọc sách nhân tạo của Apple Books sẽ là âm thanh trong tương lai chúng ta. Trong tương lai không xa, những người đọc sách bằng giọng nổi tiếng cũng có khả năng sẽ giữ bản quyền và cấp phép cho giọng của chính họ.

Hiện tại, bằng chứng trong Apple Books cho thấy hai giọng AI này phù hợp nhất với các sách phi hư cấu và thực tế, thay vì kể chuyện đầy cảm xúc. Với tiểu thuyết, cũng giống như phim ảnh, chúng ta vẫn còn một khoảng cách nào đó để các diễn viên nhân tạo có thể lay động trái tim mình một cách thuyết phục mà không phá hỏng sự hồi hộp bằng một chuyển động kiểu robot hay nốt phẳng (nốt khi phát ra bị thấp hơn so với cao độ yêu cầu từ giọng chuẩn).

Sơn Vân