Nhịp đập khoa học

Google nêu lý do đổi tên hầu hết sản phẩm AI thành Gemini, khen Gemini Ultra có khả năng đáng kinh ngạc

Sơn Vân • 08/02/2024 22:14

Vào tháng 10.2023, trang Insider đã ngồi lại với Sissie Hsiao, người đứng đầu bộ phận Bard và Assistant của Google, để thảo luận về cách công ty lên kế hoạch hợp nhất hai dịch vụ đó thành một siêu sản phẩm mới có tên Assistant with Bard.

Bây giờ, bạn có thể quên tên đó đi vì hầu hết sản phẩmtrí tuệ nhân tạo (AI) đang trở thành Gemini.

Google vừa công bố sẽ đổi tên các sản phẩm AI mới nhất và hào nhoáng nhất của mình theo mô hình ngôn ngữ lớn Gemini cung cấp sức mạnh cho chúng. Bard, chatbot AI mà Google ra mắt gần một năm trước, hiện được đặt tên là Gemini.

Duet AI, công cụ AI cộng tác của Google cho bộ phần mềm Workspace, trở thành Gemini for Workspace.

Sissie Hsiao giải thích với Insider hôm 8.2: “Đây là một dạng dọn dẹp và đón nhận Gemini như thương hiệu AI của chúng tôi. Thành thật mà nói, việc có quá nhiều cái tên thực sự rất phức tạp với mọi người. Kiểu như có một mô hình Gemini, nhưng sản phẩm lại là Bard. Tôi nghĩ cuối cùng, đây có lẽ là cách mà hầu hết mọi người sẽ trải nghiệm mô hình Gemini. Vì vậy, chúng tôi muốn thực sự nhấn mạnh: Mô hình chính là sản phẩm ở đây".

google-neu-ly-do-doi-ten-hau-het-san-pham-ai-thanh-gemini-khen-gemini-ultra-co-kha-nang-dang-kinh-ngac.jpg — Sissie Hsiao, Phó chủ tịch Google kiêm quản lý chung Assistant, trên sân khấu tại hội nghị Google I/O hồi tháng 5.2023 - Ảnh: Getty Images

Đầu tháng 12.2023, Google đã phát hành mô hình ngôn ngữ lớn Gemini. Có ba phiên bản khác nhau về kích thước, khả năng gồm Ultra, Pro và Nano. Gemini là hệ thống trí AI đa phương thức, không chỉ xử lý văn bản mà còn cả mã, âm thanh, hình ảnh và video để phản hồi truy vấn từ người dùng.

Gemini cũng tích hợp trực tiếp vào các thiết bị di động. Google tự hào rằng Gemini cũng là mô hình AI "linh hoạt nhất" của họ, có khả năng chạy trên nhiều nguồn từ trung tâm dữ liệu đến smartphone.

Phiên bản Gemini Pro đã hỗ trợ chatbot Bard kể từ đó, nhưng Google từng tạm hoãn phát hành mô hình Gemini Ultra mạnh mẽ nhất đến tháng 2.2024.

Bắt đầu từ ngày 7.2.2024, người dùng có thể truy cập Gemini Ultra thông qua Bard (hiện được gọi là Gemini) nhưng phải trả 20 USD một tháng cho gói AI Google One, để có quyền truy cập vào cả Gemini for Workspace.

Sissie Hsiao nói: "Tôi rất vui mừng với chất lượng của Gemini Ultra. Tôi nghĩ mọi người sẽ kinh ngạc vì độ phức tạp và thông minh của mô hình này. Gemini Ultra đặc biệt vượt trội ở cách tạo văn xuôi khi viết, tạo nội dung, có thể nhập vai các nhân vật khác nhau. Nó trông rất mạnh mẽ”.

Nhìn chung, việc Google đổi thương hiệu Gemini khiến mọi thứ trở nên mạch lạc hơn và bớt vội vã hơn một chút với mục đích theo đuổi ChatGPT của OpenAI. Google bị chế giễu suốt nhiều năm vì cách tiếp cận không nhất quán, đôi khi khó hiểu với việc xây dựng thương hiệu (chẳng hạn vô số ứng dụng nhắn tin của họ).

Google tuyên bố Gemini Ultra được thiết kế cho "các tác vụ cực kỳ phức tạp", vượt trội GPT-4 trong một số lĩnh vực, từ kiến thức về môn học như lịch sử và luật, đến việc tạo ra mã Python và các tác vụ đòi hỏi suy luận nhiều bước.

Gã khồng lồ công nghệ Mỹ cho biết Gemini vượt trội so với GPT-4 trong bài kiểm tra Massive Multitask Language Understanding (MMLU, hiểu ngôn ngữ đa nhiệm lớn), một trong những phương pháp phổ biến nhất để đánh giá kiến thức và kỹ năng giải quyết vấn đề của các mô hình AI.

Trên podcast công nghệ Hard Fork của tờ The New York Times, nhà báo Kevin Roose đã so sánh bài kiểm tra MMLU như "SAT dành cho các mô hình AI". Tuy nhiên, MMLU phức tạp hơn một bài kiểm tra chuẩn bị đại học thông thường. Theo thông báo của Google, bài kiểm tra này gồm 57 môn học, trong đó có Toán, Vật lý, Lịch sử, Luật, Y học và Đạo đức, để đánh giá cả kiến thức thế giới và khả năng giải quyết vấn đề.

SAT là bài kiểm tra đánh giá năng lực chuẩn hóa được sử dụng rộng rãi cho xét tuyển đại học trong hệ thống giáo dục Mỹ.

Theo Google, Gemini Ultra đạt 90% điểm trên MMLU, trong khi GPT-4 chỉ đạt 86,4%.

Thế nhưng, thành tích ấn tượng hơn: Gemini Ultra có thể là mô hình AI đầu tiên vượt trội các chuyên gia con người trên MMLU. Trong một báo cáo kỹ thuật về Gemini, Google cho biết các chuyên gia con người chỉ đạt khoảng 89,8 điểm.

"Nếu bạn quay lại hai hoặc ba năm trước và nói với các nhà nghiên cứu AI rằng Google sẽ có một mô hình đạt 90% điểm trên MMLU, vượt qua ngưỡng chuẩn của các chuyên gia con người, họ sẽ gọi đó là AGI", Kevin Roose cho hay.

AGI (trí tuệ nhân tạo tổng quát) là một dạng trí tuệ nhân tạo được giả định có thể xử lý các khả năng phức tạp của con người như trực giác và ý thức. AGI từng được coi là mục tiêu cuối cùng của lĩnh vực AI vì về mặt lý thuyết, đại diện cho thời điểm khi loài người tạo ra thứ gì đó thông minh bằng hoặc hơn chính mình.

Chưa hết, Google cho biết Gemini Ultra "vượt qua kết quả hiện tại của 30 trong số 32 thước đo học thuật phổ biến" để đánh giá các mô hình ngôn ngữ lớn.

Trong một thước đo, Gemini Ultra có tỷ lệ thành công là 74,4% trong tạo mã Python, so với 67% của GPT-4. Với một thước đo khác, Gemini Ultra có điểm đọc hiểu là 82,4 so với 80,9 của GPT-4.

Theo Google, GPT-4 hơn Gemini Ultra vài điểm phần trăm trong bài đánh giá khả năng suy luận logic thông thường cho các công việc hàng ngày. Tuy nhiên, Google cho biết một lợi thế mà Gemini có so với các mô hình khác là tính đa phương thức, nghĩa là được thiết kế từ đầu để xử lý nhiều loại dữ liệu, từ văn bản đến âm thanh, mã, hình ảnh và video.

Google ra mắt ứng dụng Gemini cho thiết bị di động

Google cho biết tất cả thay đổi nêu trên sẽ được phản ánh ngay lập tức trên các sản phẩm. Dù tiếp tục nhắc nhở người dùng rằng Gemini đôi khi sẽ mắc sai lầm nhưng Google đã xóa nhãn "thử nghiệm" thường nằm ở đầu trang.

Trên thiết bị di động, Google cũng sẽ ra mắt ứng dụng Gemini chuyên dụng để thay thế Assistant trên Android một cách hiệu quả. Trong khi người dùng iOS sẽ có nhận ứng dụng này thông qua một nút chuyển đổi mới trong ứng dụng Google.

Gemini trên thiết bị di động sẽ thực hiện nhiều điều mà Google đã giới thiệu vào tháng 10.2023, chẳng hạn cho phép người dùng chụp ảnh và đặt câu hỏi về bức ảnh hoặc xuất hiện dưới dạng lớp phủ trên smartphone Android để cung cấp cho người dùng thông tin về những gì họ đang xem trên trang web.

Sissie Hsiao cho biết Google có kế hoạch tiếp tục đầu tư vào Assistant (trợ lý) trên các bề mặt khác, chẳng hạn như loa thông minh, hệ thống thông tin giải trí trên tivi…

Có cảm giác Google Assistant một ngày nào đó sẽ được đặt kèm với từ Gemini. Tuy nhiên, Sissie Hsiao cho rằng còn quá sớm để nói rằng đó là mục tiêu cuối cùng.

Bà nói: “Tôi nghĩ rằng cách Assistant thể hiện trên loa chẳng hạn được thiết kế thực sự trong thời đại chỉ dành cho giọng nói”, đồng thời cho biết thêm rằng Google muốn tiếp tục đầu tư vào Assistant và làm cho các tính năng đó trở nên mạnh mẽ.

“Sẽ có nhiều sự sáng tạo và trau chuốt hơn khi bạn trải nghiệm Google Assistant trên màn hình thay vì chỉ qua giọng nói của mình. Vì vậy, chúng tôi đang chuyển từ việc chỉ có giọng nói sang hình ảnh và âm thanh. Giọng nói vẫn sẽ xuất hiện, nhưng đây là trải nghiệm AI phong phú hơn trên smartphone mà chúng tôi muốn xây dựng”, Sissie Hsiao tiết lộ. Ngoài ra, bà thời thừa nhận rằng Assistant có nhiều khả năng tuyệt vời nữa và đó là lý do tại sao Google tiếp tục phát triển nó.

Sơn Vân