Nhịp đập khoa học

Google ra mắt 3 phiên bản mô hình Gemini, vũ khí AI hạng nặng để đấu với OpenAI

Sơn Vân•06/12/2023 23:13

Sau nhiều tháng kích thích sự tò mò, Google bắt đầu tung ra mô hình trí tuệ nhân tạo tạo sinh (generative AI) của mình mang tên Gemini.

Sẽ được ra mắt theo từng giai đoạn, Gemini là cơ hội để Google ngăn chặn quan điểm cho rằng hãng đang tụt hậu so với đối thủ OpenAI.

Dù người dùng sẽ có quyền truy cập vào Gemini trong tháng 12, phiên bản cao cấp nhất của mô hình AI này sẽ không xuất hiện cho đến đầu năm 2024.

Gemini có ba phiên bản được phát hành theo từng giai đoạn, gồm Ultra, Pro và Nano. Phiên bản Nano được thiết kế để chạy cục bộ trên các thiết bị, chẳng hạn smartphone.

Google sẽ cấp cho người dùng quyền truy cập vào phiên bản Gemini Pro hôm 6.12 thông qua chatbot Bard và cho khách hàng dùng Cloud trong những ngày tới. Song, Google cho biết Gemini Ultra (phiên bản lớn nhất và tiên tiến nhất về mặt kỹ thuật trong ba mô hình AI) vẫn đang trong quá trình thử nghiệm nội bộ và sẽ không triển khai cho đến đầu năm 2024.

google-ra-mat-3-mo-hinh-gemini-vu-khi-hang-nang-de-dau-voi-openai.jpg — Gemini có ba phiên bản được phát hành theo từng giai đoạn, gồm Ultra, Pro và Nano - Ảnh: Google

Google thông báo có kế hoạch đưa Gemini vào các sản phẩm phổ biến nhất của mình theo thời gian. Công ty cũng ra mắt Gemini Ultra cho Bard phiên bản mới có tên Bard Advanced vào năm tới.

Sissie Hsiao, Phó chủ tịch Google kiêm quản lý Bard and Assistant, không tiết lộ liệu có tốn phí để sử dụng Bard Advanced hay không nhưng không phủ nhận khả năng đó.

Hiện Google phải chịu áp lực rất lớn để chứng minh họ vẫn là công ty dẫn đầu ngành AI với Gemini, được đào tạo để trở nên đa phương thức, nghĩa là có thể xử lý các loại phương tiện khác nhau như văn bản, hình ảnh, video và âm thanh. Google tự hào rằng Gemini cũng là mô hình AI "linh hoạt nhất" của họ, có khả năng chạy trên nhiều nguồn từ trung tâm dữ liệu đến smartphone.

Trong cuộc thảo luận bàn tròn với các phóng viên tuần này, các lãnh đạo Google nói Gemini Ultra là mô hình AI đầu tiên vượt trội hơn các chuyên gia về MMLU (hiểu biết ngôn ngữ đa nhiệm quy mô lớn), một phép đo kiểm tra các môn như Toán, Lịch sử, Luật và Đạo đức. Gemini Ultra đạt 90,0% số điểm, vượt qua con số 86,4% của GPT-4 của OpenAI

Tất cả điều đó nghe có vẻ tuyệt vời, nhưng hiện chưa thể kiểm tra toàn bộ khả năng của Gemini.

Google tuyên bố Gemini Pro hoạt động tốt hơn GPT-3.5 (mô hình ngôn ngữ lớn làm nền tảng cho phiên bản ChatGPT miễn phí) và người dùng sẽ có thể thử nghiệm bản tinh chỉnh cho Bard bắt đầu từ ngày 6.12 (ban đầu chỉ bằng ngôn ngữ tiếng Anh).

Google đã bác bỏ những đề xuất rằng đã nỗ lực để đuổi kịp đối thủ, nhưng bên trong công ty, mọi thứ trông rất khác khi họ đua nhau tung ra Gemini và tích hợp AI vào tất cả sản phẩm chính của mình.

Hồi tháng 4, Sundar Pichai - Giám đốc điều hành Google đã sáp nhập đơn vị DeepMind được đánh giá cao của Alphabet với nhóm AI nội bộ là Google Brain, để đẩy nhanh quá trình phát triển Gemini. Nhân viên cũng được thông báo rằng Google sẽ giảm số lượng nghiên cứu được xuất bản để hạn chế các đối thủ thương mại hóa ý tưởng của họ, trang Insider đưa tin.

Google tin rằng Gemini có lợi thế hơn trong cuộc cạnh tranh ở "lý luận phức tạp", cách mô hình xử lý thông tin phức tạp trên các loại phương tiện khác nhau.

Trong một bản demo được trình chiếu cho báo chí, các nhà nghiên cứu DeepMind đã sử dụng Gemini để tìm kiếm hàng trăm nghìn tài liệu nghiên cứu nhằm trích xuất các loại dữ liệu cụ thể. Google cho biết Gemini có thể phân biệt giữa những bài viết có liên quan đến nghiên cứu và không liên quan. Thú vị hơn, họ cho Gemini xem một biểu đồ với dữ liệu cũ và yêu cầu nó tạo ra một phiên bản cập nhật với dữ liệu mới được vẽ.

Dù Gemini có thể xử lý các loại phương tiện khác nhau, Eli Collins, Phó chủ tịch sản phẩm của DeepMind, cho biết các mô hình Gemini ban đầu sẽ không thể tạo hình ảnh và video, nhưng gợi ý rằng điều này sẽ xuất hiện trong các mô hình AI khác trong tương lai.

Eli Collins nói thêm rằng Google đã nhận thấy một số khả năng "mới lạ" ở Gemini có thể mang lại lợi thế cho nó so với các mô hình AI đối thủ, nhưng sẽ không nói rõ những khả năng đó có thể là gì.

Cách đây ít ngày, Sissie Hsiao từng nói về Gemini: “Tôi đã thấy một số điều rất tuyệt vời. Ví dụ, tôi đang cố nướng một chiếc bánh và nói ‘hãy vẽ cho tôi 3 bức tranh về cách trang trí bánh ba tầng’. Gemini sẽ tạo ra những hình ảnh đó thực sự. Đây là những bức tranh hoàn toàn mới lạ, không phải từ internet. Nó có thể giao tiếp bằng hình ảnh với con người ngay bây giờ, không chỉ là văn bản".

Gemini đã được đào tạo và được hỗ trợ bởi các bộ xử lý Tensor (TPU). Google sử dụng buổi giới thiệu Gemini để công bố Cloud TPU v5p mới và siêu máy tính AI mới sẽ được sử dụng để cải thiện hoạt động đào tạo và phân phối AI. Điều thú vị là Amin Vahdat, Phó chủ tịch của Google Cloud AI, cho biết Gemini sẽ chạy trên cả GPU và TPU trong tương lai, nhưng không nói rõ hơn điều đó.

Google thông báo sẽ cung cấp Gemini Pro cho khách hàng doanh nghiệp thông qua chương trình Vertex AI và dành cho các nhà phát triển trong AI Studio vào ngày 13.12.

Với các sản phẩm tiêu dùng ngoài Bard, Google có kế hoạch bổ sung Gemini vào SGE, phiên bản tìm kiếm tạo sinh được hỗ trợ bởi AI, cũng như Chrome, Duet AI và các sản phẩm khác trong những tháng tới.

Gemini lấy cảm hứng từ AlphaGo, được DeepMind phát triển và trở thành chương trình máy tính đầu tiên đánh bại một người chơi cờ vây chuyên nghiệp là con người. Lịch sử AI được lập vào năm 2016 khi AlphaGo đánh bại Lee Sedol, một trong những kỳ thủ cờ vây vĩ đại nhất thế giới, trong trận đấu của chính ông ta.

Demis Hassabis, Giám đốc điều hành DeepMind, nói với trang Wired rằng các kỹ thuật được sử dụng trong AlphaGo sẽ kết hợp với công nghệ hỗ trợ ChatGPT. Ông lý giải: “Ở cấp độ cao, bạn có thể coi Gemini như sự kết hợp một số điểm mạnh của hệ thống AlphaGo với khả năng ngôn ngữ tuyệt vời của các mô hình lớn”.