Nhịp đập khoa học

Các bot giọng nói AI giá rẻ bất ngờ xuất hiện khắp nơi ở quốc gia đông dân nhất thế giới

Sơn Vân • 26/08/2024 11:10

Đầu tháng 8, các lãnh đạo Google DeepMind, Microsoft và Meta Platforms cùng những người sáng lập hãng công nghệ tại thành phố Bangalore (Ấn Độ) để chứng kiến một trong những công ty khởi nghiệp trí tuệ nhân tạo (AI) hàng đầu Ấn Độ công bố sản phẩm mới có thể thay đổi cách sử dụng công nghệ ở quốc gia đông dân nhất thế giới.

Công ty khởi nghiệp Sarvam AI, thường được mô tả là OpenAI của Ấn Độ, đã giới thiệu phần mềm cho các doanh nghiệp có thể tương tác với khách hàng bằng giọng nói thay vì chỉ văn bản. Công nghệ này được phát triển bằng dữ liệu từ 10 ngôn ngữ bản địa của Ấn Độ và được định giá là một rupee một phút để chiếm lĩnh thị trường. Trong một video tại sự kiện, Vinod Khosla, tỷ phú đầu tư vào Sarvam AI, phát biểu: "Những trợ lý giọng nói này có tiềm năng tiếp cận 1 tỉ người".

Ấn Độ đã cố gắng bắt kịp cơn sốt AI toàn cầu, gần hai năm kể từ khi ChatGPT ra mắt, nhưng các chatbot thường bị hạn chế do thiếu dữ liệu về nhiều ngôn ngữ của quốc gia này. Nhiều người sống ở các thành phố lớn có thể nhập lời nhắc cho chatbot bằng tiếng Anh. Thế nhưng, phần lớn người dân Ấn Độ không thông thạo tiếng Anh nên không thể sử dụng công nghệ này một cách dễ dàng.

Hiện nay, ngày càng nhiều công ty khởi nghiệp đặt cược rằng các bot giọng nói được xây dựng bằng dữ liệu ngôn ngữ địa phương có thể tiếp cận được nhiều vùng rộng lớn hơn ở Ấn Độ và thậm chí có thể thu hút người dùng ở các quốc gia khác.

Trong quá trình này, các công ty khởi nghiệp có thể biến Ấn Độ thành một nơi thử nghiệm những sản phẩm AI tạo sinh tiếp theo, dù chúng gây ra một số lo ngại về an toàn ở các thị trường khác. Bằng cách kết hợp các tính năng giọng nói AI, các hãng công nghệ hy vọng sẽ tạo ra dịch vụ đàm thoại năng động hơn, có thể phản hồi người dùng bằng lời nói theo thời gian thực và tự động hóa một số tác vụ nhất định. Tại Ấn Độ, điều đó đã diễn ra trên nhiều ứng dụng dành cho người tiêu dùng và doanh nghiệp.

Gnani AI (được Samsung hậu thuẫn) thực hiện hàng triệu cuộc trò chuyện bằng giọng nói mỗi ngày cho các ngân hàng, công ty bảo hiểm và hãng ô tô lớn nhất Ấn Độ. CoRover AI cung cấp bot giọng nói bằng 14 ngôn ngữ Ấn Độ cho tập đoàn đường sắt quốc doanh và lực lượng cảnh sát khu vực. Bot giọng nói của Haloocom Technologies có thể nói bằng 5 ngôn ngữ Ấn Độ để xử lý các nhiệm vụ chăm sóc khách hàng và giúp sàng lọc ứng viên việc làm.

“Thế giới đã chuyển từ kỹ thuật số sang di động rồi đến AI, nhưng giọng nói là cách trực quan nhất để sử dụng công nghệ”, Ankush Sabharwal, đồng sáng lập kiêm Giám đốc điều hành CoRover AI, cho biết.

CoRover AI đã ra mắt bot giọng nói Ask Disha vào tháng này cho IRCTC - công ty đặt vé tàu hỏa của Ấn Độ. Bot có thể đặt vé tàu hỏa và hoàn tất thanh toán thay mặt cho khách hàng chỉ thông qua giọng nói. Ankush Sabharwal nói Ấn Độ cần các tác nhân AI có thể thực hiện các nhiệm vụ, không chỉ cung cấp thông tin.

Gnani AI cung cấp một bot giúp các bên cho vay trò chuyện với khách hàng tiềm năng để tìm hiểu nhu cầu tài chính của họ, thu thập thông tin cá nhân và xác định xem họ có đủ điều kiện vay hay không. Công ty khởi nghiệp này cũng hợp tác với Tata Motors, một trong những nhà sản xuất ô tô lớn nhất Ấn Độ, để nhận phản hồi về các mẫu xe mới nhất và bán bảo hành mở rộng cùng các phụ kiện.

Các bot giọng nói của Sarvam AI có thể xử lý các cuộc trò chuyện bằng nhiều ngôn ngữ và thực hiện tác vụ cho khách hàng, chẳng hạn thiết lập cuộc hẹn và tạo điều kiện thanh toán.

Sarvam AI có khoảng 50 khách hàng, gồm cả Sri Mandir - ứng dụng tâm linh có hơn 10 triệu lượt tải xuống trên Google Play Store. Sử dụng phần mềm giọng nói của Sarvam AI, Sri Mandir có thể hướng dẫn mọi người đến các nghi lễ cụ thể tại các ngôi đền khác nhau và cách cầu xin nhiều loại phước lành khác nhau.

"Hãy thử đưa GPT-4 hoặc Claude vào Sri Mandir. Tôi đảm bảo rằng nó sẽ không hiệu quả", Vivek Raghavan, đồng sáng lập của Sarvam AI, ám chỉ đến các mô hình AI tiên tiến từ OpenAI và Anthropic. Ông cho biết các công ty Mỹ không đủ đủ dữ liệu ngôn ngữ nói Ấn Độ, gồm cả các giọng khác nhau tùy theo từng vùng.

Một số công ty AI hàng đầu Mỹ, gồm cả OpenAI, đã phát triển công nghệ có thể tạo ra giọng nói nghe thuyết phục nhưng đã chậm trễ trong việc đưa công nghệ này ra thị trường. OpenAI gần đây cảnh báo rằng người dùng có thể trở nên phụ thuộc về mặt cảm xúc vào sản phẩm giọng nói của mình, đồng thời cũng cho biết đã thực hiện các bước để ngăn chặn tình trạng mạo danh và tạo ra âm thanh có bản quyền. Công ty khởi nghiệp AI được Microsoft hậu thuẫn đã bắt đầu triển khai các tính năng giọng nói mới cho một số lượng người dùng hạn chế sau một thời gian trì hoãn.

Bất chấp những lo ngại, các công ty khởi nghiệp AI của Ấn Độ vẫn lạc quan về công nghệ này. “AI được tạo ra cho các trường hợp sử dụng, ngôn ngữ và đối tượng cụ thể chính xác hơn, ít tốn kém hơn khi vận hành và giảm đáng kể ảo giác (trả lời sai y như thật)”, Ganesh Gopalan, đồng sáng lập kiêm Giám đốc điều hành Gnani AI, nói.

Dù các công ty khởi nghiệp này tập trung vào Ấn Độ, một số cũng đang để mắt đến các thị trường quốc tế, gồm Trung Đông và Nhật Bản. Trên thực tế, các bot giọng nói của Gnani AI đã được triển khai tại sân sau của Thung lũng Silicon (Mỹ), giúp một công ty cho thuê xe Harley-Davidson lớn tại bang California tiếp cận được với khách hàng nói tiếng Tây Ban Nha.

cac-bot-giong-noi-ai-gia-re-bat-ngo-xuat-hien-khap-noi-o-quoc-gia-dong-dan-nhat-the-gioi.jpg — Ấn Độ đã cố gắng bắt kịp cơn sốt AI toàn cầu, gần hai năm kể từ khi ChatGPT ra mắt cuối tháng 11.2022 - Ảnh: Getty Images

Các hãng phát triển ứng dụng trí tuệ nhân tạo (AI) của Trung Quốc cũng để mắt đến người dùng quốc tế vì cạnh tranh ở thị trường trong nước quá gay gắt.

Dù các hãng công nghệ lớn và công ty khởi nghiệp ở Trung Quốc nhanh chóng ra mắt hàng trăm mô hình ngôn ngữ lớn (công nghệ làm nền tảng cho sản phẩm AI tạo sinh như chatbot) và các ứng dụng liên quan, việc thuyết phục doanh nghiệp và người tiêu dùng trong nước trả tiền cho những dịch vụ này là một thách thức. Điều đó thúc đẩy một số công ty tìm kiếm sự tăng trưởng ở nước ngoài.

Theo nghiên cứu gần đây của hãng Unique Capital, trong số 1.500 công ty AI đang hoạt động trên toàn thế giới, có 103 công ty từ Trung Quốc nhưng đã bắt đầu mở rộng ra thị trường nước ngoài.

Ví dụ, Alibaba đã ra mắt SeaLLM, mô hình ngôn ngữ lớn được thiết kế riêng cho thị trường Đông Nam Á vào năm ngoái, phù hợp với các hoạt động thương mại điện tử và điện toán đám mây của công ty trong khu vực này.

ByteDance, chủ sở hữu TikTok, tung ra các ứng dụng hướng đến người tiêu dùng, gồm cả "trợ lý AI làm bài tập về nhà" Gauth, ứng dụng nhân vật tương tác AnyDoor và nền tảng bot AI Coze cho thị trường toàn cầu.

Minimax, một trong những công ty khởi nghiệp AI hàng đầu Trung Quốc, cũng ra mắt Talkie AI cho người dùng quốc tế.

Những người trong ngành cho biết thị trường nước ngoài có tiềm năng tăng trưởng lớn hơn vào bối cảnh cạnh tranh khốc liệt tại quê nhà.

Ryan Zhang Haoran, đồng sáng lập Motiff - hãng tạo ra công cụ thiết kế giao diện người dùng hỗ trợ AI ra mắt vào tháng 6, phát biểu: "Người dùng nước ngoài sẵn sàng trả tiền cho phần mềm hơn và có nhiều chuyên gia hơn có thể cung cấp phản hồi có giá trị". Ryan Zhang Haoran lưu ý rằng ngay từ ngày đầu tiên, Motiff đã theo đuổi các cơ hội kinh doanh cả trong và ngoài nước.

Ông nói thêm: "Các công cụ tập trung vào tiện ích phù hợp với thị trường toàn cầu, nơi nhu cầu tùy chỉnh thấp hơn". Nền tảng của Motiff, hỗ trợ cộng tác nhóm, thiết kế và tạo sinh hỗ trợ AI, đã nhanh chóng thu hút được nhóm người dùng đầu tiên trên khắp Mỹ, Nhật Bản, Đông Nam Á và châu Mỹ Latinh, với mức giá chỉ bằng khoảng 20% so với Figma - công ty dẫn đầu thị trường hiện tại.

Điều hành trình duyệt web Opera và từng sở hữu ứng dụng hẹn hò dành cho người đồng tính Grindr, Kunlun Tech (có trụ sở tại thủ đô Bắc Kinh) là một công ty kỳ cựu trong số các hãng công nghệ Trung Quốc đang mở rộng ra nước ngoài. Giám đốc điều hành Kunlun Tech - Fang Han lưu ý rằng bối cảnh cạnh tranh ở nước ngoài cũng trở nên đông đúc khi ngày càng nhiều đối thủ Trung Quốc mạo hiểm hướng ra quốc tế.

"Nội dung do AI tạo ra (AIGC) về cơ bản làm giảm rào cản và chi phí cho người sáng tạo, điều này đang làm thay đổi ngành công nghiệp nội dung", Fang Han cho biết.

Gần đây, Kunlun Tech tung ra hàng loạt ứng dụng AI, gồm Melodio (dịch vụ phát trực tuyến nhạc), Mureka (nền tảng sáng tạo âm nhạc hỗ trợ AI dành cho người dùng thương mại) và SkyReels (nền tảng tạo phim truyền hình ngắn).

"Chúng tôi tập trung vào các thị trường có doanh thu trung bình trên mỗi người dùng cao hơn, chẳng hạn Bắc Mỹ, châu Âu và Nhật Bản", Fang Han tiết lộ.

Sự chia rẽ ngày càng lớn ở lĩnh vực công nghệ do căng thẳng Trung – Mỹ buộc các nhà phát triển Trung Quốc phải thích nghi trong bối cảnh thay đổi nhanh chóng, đặc biệt là lĩnh vực bán dẫn và AI.

Để ứng phó, một số công ty Trung Quốc đang cố gắng che giấu nguồn gốc của mình. Ví dụ, công ty khởi nghiệp AI tạo sinh HeyGen (có trụ sở tại thành phố Thâm Quyến, Trung Quốc) đã chuyển đến Los Angeles (Mỹ) và kêu gọi các nhà đầu tư Trung Quốc thoái vốn để ưu tiên cho các đối tác Mỹ. Đây là động thái nhằm cắt giảm mối liên hệ với Trung Quốc giữa sự giám sát gia tăng từ cả hai nước.

Ryan Zhang Haoran cho biết: "Tuân thủ là điều tối quan trọng. Khi thâm nhập vào một thị trường mới, bạn phải tuân thủ các quy định của nơi đó". Ông nói thêm rằng dù các sản phẩm của Motiff vẫn nhất quán trên toàn cầu, nhưng cơ sở hạ tầng của họ được điều chỉnh cho các thị trường khác nhau bằng cách sử dụng các mô hình AI nguồn mở và dịch vụ đám mây khác nhau.

Fang Han nói các sản phẩm trong nước của Kunlun Tech ưu tiên "hiệu quả", còn ở nước ngoài thì công ty đang thử nghiệm nhiều hơn với các công cụ AIGC và mô hình kinh doanh khác nhau. Ví dụ, ứng dụng Mureka của Kunlun Tech cho phép người dùng trả tiền để truy cập vào các công cụ AIGC và liệt kê âm nhạc do AI tạo ra của họ để bán, với nền tảng này sẽ lấy hoa hồng cho mỗi giao dịch.

Theo Fang Han, dù công nghệ AI của Trung Quốc vẫn phải đối mặt với nhiều thách thức trong các lĩnh vực như phát triển chip và sức mạnh tính toán, các công ty nước này lại rất giỏi về phát triển ứng dụng hướng đến người tiêu dùng và có tầm nhìn sâu sắc khi nói đến thương mại hóa.