Kỹ sư nghiên cứu trí tuệ nhân tạo (AI) tại hãng MosaicML nhận xét: "Gemini quá tốt. Tốt hơn và nhanh hơn GPT-4 rất nhiều".
OpenAI, công ty khởi nghiệp tương đối nhỏ và mới nổi, đã thách thức Google khi phát hành ChatGPT vào tháng 11.2022.
Hôm 6.12, Sundar Pichai (Giám đốc điều hành Google) và Demis Hassabis (Giám đốc điều hành google DeepMind) đã giới thiệu với thế giới về mô hình generative AI mới mang tên Gemini. Google mô tả đây là "mô hình AI thông minh và tổng quát nhất của mình cho đến nay".
Có ba phiên bản khác nhau gồm Ultra, Pro và Nano, Gemini là hệ thống AI đa phương thức, nghĩa là không chỉ xử lý văn bản mà còn cả mã, âm thanh, hình ảnh và video để phản hồi truy vấn từ người dùng. Gemini cũng tích hợp trực tiếp vào các thiết bị di động, là lần đầu tiên cho một mô hình AI và điểm thú vị cho những người tạo ứng dụng.
Ra mắt Gemini là khoảnh khắc quan trọng với Google đến nỗi người đồng sáng lập Sergey Brin đã tham gia "gần như mỗi ngày" trong quá trình phát triển mô hình AI này.
Các phản hồi ban đầu cho thấy Gemini đang có hiệu suất tốt so với GPT-4, mô hình ngôn ngữ lớn của OpenAI làm nền tảng cho ChatGPT.
Google cho biết Gemini Ultra (phiên bản Gemini mạnh mẽ nhất sẽ ra mắt vào năm tới) "vượt qua kết quả hiện tại của 30 trong số 32 thước đo học thuật phổ biến" để đánh giá các mô hình ngôn ngữ lớn.
Trong một thước đo, Gemini Ultra có tỷ lệ thành công là 74,4% trong tạo mã Python, so với 67% của GPT-4. Với một thước đo khác, Gemini Ultra có điểm đọc hiểu là 82,4 so với 80,9 của GPT-4.
Ấn tượng đầu tiên về Gemini dường như tích cực với những người dùng đang trải nghiệm mô hình AI này thông qua Bard.
Mihir Patel, kỹ sư nghiên cứu tại hãng MosaicML, đã đăng ảnh chụp màn hình lên X để so sánh phản hồi từ Gemini và GPT-4 với câu hỏi "Mamba trong học sâu là gì?"
Theo ảnh chụp màn hình, phản hồi của Gemini chi tiết hơn và cũng được liên kết với các tài liệu nghiên cứu bên ngoài. ChatGPT gần giống một bài viết thông minh trên Wikipedia.
Mihir Patel nhận xét: "Gemini quá tốt. Tốt hơn và nhanh hơn GPT-4 rất nhiều".
Mamba là một kiến trúc học sâu (deep learning) tương đối mới được phát triển bởi hãng Anakin AI.
Học sâu là một lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.
Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.
Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, ngôn ngữ tự nhiên, dịch ngôn ngữ và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).
Một video cho thấy Gemini mô tả bức tranh phát triển hình con vịt đang bơi trong nước chính xác.
Các nhà phát triển có thể sẽ chào đón Gemini như một sự thay thế thú vị cho sản phẩm của OpenAI. Google nói với tờ Financial Times rằng, vì mô hình Gemini Nano được xây dựng để "chạy tự nhiên" trên smartphone Pixel nên các nhà phát triển Android sẽ dễ dàng xây dựng ứng dụng AI hơn.
Vẫn còn nhiều ý kiến đánh giá về Gemini và khả năng của Google có thể thu hút người dùng từ ChatGPT hay không. Rất nhiều người dùng muốn thử nghiệm Gemini có thể phải chờ vì Google vẫn tiếp tục làm việc trên các phiên bản mô hình không phải tiếng Anh.
Gemini vẫn dường như vẫn có thể mắc phải những vấn đề liên quan đến "ảo giác" (trả lời sai như thật) ở ChatGPT.
Sundar Pichai, Demis Hassabis và các lãnh đạo Google khác hẳn đã quen với tình thế tiến thoái lưỡng nan của nhà đổi mới - ý tưởng cho rằng các công ty lớn có nguy cơ mất đi vị trí dẫn đầu thị trường nếu không nhanh nhẹn trong việc phát triển sản phẩm. Các phản hồi sớm với Gemini cho thấy vẫn còn sức sống trong cỗ máy tìm kiếm cũ của Google.
Sẽ được ra mắt theo từng giai đoạn, Gemini là cơ hội để Google ngăn chặn quan điểm cho rằng hãng đang tụt hậu so với đối thủ OpenAI.
Dù người dùng sẽ có quyền truy cập vào Gemini trong tháng 12, phiên bản cao cấp nhất của mô hình AI này sẽ không xuất hiện cho đến đầu năm 2024.
Gemini có ba phiên bản được phát hành theo từng giai đoạn, gồm Ultra, Pro và Nano. Phiên bản Nano được thiết kế để chạy cục bộ trên các thiết bị, chẳng hạn smartphone.
Google sẽ cấp cho người dùng quyền truy cập vào phiên bản Gemini Pro hôm 6.12 thông qua chatbot Bard và cho khách hàng dùng Cloud trong những ngày tới. Song, Google cho biết Gemini Ultra (phiên bản lớn nhất và tiên tiến nhất về mặt kỹ thuật trong ba mô hình AI) vẫn đang trong quá trình thử nghiệm nội bộ và sẽ không triển khai cho đến đầu năm 2024.
Google thông báo có kế hoạch đưa Gemini vào các sản phẩm phổ biến nhất của mình theo thời gian. Công ty cũng ra mắt Gemini Ultra cho Bard phiên bản mới có tên Bard Advanced vào năm tới.
Sissie Hsiao, Phó chủ tịch Google kiêm quản lý Bard and Assistant, không tiết lộ liệu có tốn phí để sử dụng Bard Advanced hay không nhưng không phủ nhận khả năng đó.
Hiện Google phải chịu áp lực rất lớn để chứng minh họ vẫn là công ty dẫn đầu ngành AI với Gemini, được đào tạo để trở nên đa phương thức, nghĩa là có thể xử lý các loại phương tiện khác nhau như văn bản, hình ảnh, video và âm thanh. Google tự hào rằng Gemini cũng là mô hình AI "linh hoạt nhất" của họ, có khả năng chạy trên nhiều nguồn từ trung tâm dữ liệu đến smartphone.
Trong cuộc thảo luận bàn tròn với các phóng viên tuần này, các lãnh đạo Google nói Gemini Ultra là mô hình AI đầu tiên vượt trội hơn các chuyên gia về MMLU (hiểu biết ngôn ngữ đa nhiệm quy mô lớn), một phép đo kiểm tra các môn như Toán, Lịch sử, Luật và Đạo đức. Gemini Ultra đạt 90,0% số điểm, vượt qua con số 86,4% của GPT-4 của OpenAI.
Google tuyên bố Gemini Pro hoạt động tốt hơn GPT-3.5 (mô hình ngôn ngữ lớn làm nền tảng cho phiên bản ChatGPT miễn phí) và người dùng sẽ có thể thử nghiệm bản tinh chỉnh cho Bard bắt đầu từ ngày 6.12 (ban đầu chỉ bằng ngôn ngữ tiếng Anh).
Google đã bác bỏ những đề xuất rằng đã nỗ lực để đuổi kịp đối thủ, nhưng bên trong công ty, mọi thứ trông rất khác khi họ đua nhau tung ra Gemini và tích hợp AI vào tất cả sản phẩm chính của mình.
Hồi tháng 4, Sundar Pichai đã sáp nhập đơn vị DeepMind được đánh giá cao của Alphabet với nhóm AI nội bộ là Google Brain, để đẩy nhanh quá trình phát triển Gemini. Nhân viên cũng được thông báo rằng Google sẽ giảm số lượng nghiên cứu được xuất bản để hạn chế các đối thủ thương mại hóa ý tưởng của họ, trang Insider đưa tin.
Google tin rằng Gemini có lợi thế hơn trong cuộc cạnh tranh ở "lý luận phức tạp", cách mô hình xử lý thông tin phức tạp trên các loại phương tiện khác nhau.
Trong một bản demo được trình chiếu cho báo chí, các nhà nghiên cứu DeepMind đã sử dụng Gemini để tìm kiếm hàng trăm nghìn tài liệu nghiên cứu nhằm trích xuất các loại dữ liệu cụ thể. Google cho biết Gemini có thể phân biệt giữa những bài viết có liên quan đến nghiên cứu và không liên quan. Thú vị hơn, họ cho Gemini xem một biểu đồ với dữ liệu cũ và yêu cầu nó tạo ra một phiên bản cập nhật với dữ liệu mới được vẽ.
Dù Gemini có thể xử lý các loại phương tiện khác nhau, Eli Collins, Phó chủ tịch sản phẩm của DeepMind, cho biết các mô hình Gemini ban đầu sẽ không thể tạo hình ảnh và video, nhưng gợi ý rằng điều này sẽ xuất hiện trong các mô hình AI khác trong tương lai.
Eli Collins nói thêm rằng Google đã nhận thấy một số khả năng "mới lạ" ở Gemini có thể mang lại lợi thế cho nó so với các mô hình AI đối thủ, nhưng sẽ không nói rõ những khả năng đó có thể là gì.
Gemini đã được đào tạo và được hỗ trợ bởi các bộ xử lý Tensor (TPU). Google sử dụng buổi giới thiệu Gemini để công bố Cloud TPU v5p mới và siêu máy tính AI mới sẽ được sử dụng để cải thiện hoạt động đào tạo và phân phối AI. Điều thú vị là Amin Vahdat, Phó chủ tịch của Google Cloud AI, cho biết Gemini sẽ chạy trên cả GPU và TPU trong tương lai, nhưng không nói rõ hơn điều đó.
Google thông báo sẽ cung cấp Gemini Pro cho khách hàng doanh nghiệp thông qua chương trình Vertex AI và dành cho các nhà phát triển trong AI Studio vào ngày 13.12.