Nhịp đập khoa học

Lý do Google âm thầm lùi thời gian ra mắt Gemini, mô hình AI có thể đánh bại GPT-4

Sơn Vân • 03/12/2023 15:57

Chúng ta phải chờ thêm một thời gian nữa trước khi chứng kiến Google ra mắt Gemini - mô hình trí tuệ nhân tạo (AI) phức tạp nhất của hãng.

Gemini được mô tả là thế hệ tiếp theo của AI và đa phương thức, nghĩa là nó có thể xử lý nhiều loại dữ liệu và khả năng hiểu, tạo ra văn bản và hình ảnh cũng như các loại nội dung khác dựa trên bản phác thảo...

Trang The Information đưa tin các sự kiện ra mắt Gemini ban đầu dự kiến diễn ra tuần tới tại bang New York, Washington và California (Mỹ), nhưng đã được Google lùi lại một cách lặng lẽ vào đầu năm 2024 vì lo ngại mô hình AI mới họat động không đáng tin cậy khi phản hồi một số yêu cầu và thắc mắc bằng ngôn ngữ không phải tiếng Anh.

Đại diện của Google không trả lời ngay lập tức khi trang Insider đề nghị bình luận.

Dù vẫn chưa trình làng để người dùng sử dụng rộng rãi, Gemini được cho có hiệu suất vượt trội GPT-4 của OpenAI vì khai thác sức mạnh tính toán lớn hơn rất nhiều.

Sissie Hsiao, Phó chủ tịch Google quản lý Bard và Google Assistant, từng nói về Gemini: “Tôi đã thấy một số điều rất tuyệt vời. Ví dụ, tôi đang cố nướng một chiếc bánh và nói ‘hãy vẽ cho tôi 3 bức tranh về cách trang trí bánh ba tầng’. Gemini sẽ tạo ra những hình ảnh đó thực sự. Đây là những bức tranh hoàn toàn mới lạ, không phải từ internet. Nó có thể giao tiếp bằng hình ảnh với con người ngay bây giờ, không chỉ là văn bản".

Dù Google đã có mô hình generative AI (AI tạo sinh) Bard của riêng, ChatGPT đến nay vẫn thu hút nhiều người tiêu dùng hơn. Thế nhưng, các nhà phân tích cho rằng điều đó có thể thay đổi khi Gemini ra mắt.

Generative AI là một loại trí tuệ nhân tạo được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

ly-do-google-am-tham-lui-thoi-gian-ra-mat-gemini-mo-hinh-ai-co-the-danh-bai-gpt-4.jpg — Gemini là một mô hình AI đa phương thức, có thể xử lý nhiều loại dữ liệu - Ảnh: Internet

Gemini đang được nghiên cứu bởi đội ngũ thuộc bộ phận Google DeepMind và Google Brain.

Đầu năm 2023, Google đã tiến hành hợp nhất DeepMind và Brain dưới sự chỉ đạo của Giám đốc điều hành Sundar Pichai, nhằm đẩy nhanh quá trình phát triển các mô hình ngôn ngữ lớn như Gemini để bắt kịp GPT-4.

Cốt lõi của Gemini là thuật toán đào tạo tăng cường (reinforment learning), cho phép AI học cách tiếp cận một vấn đề theo cách logic và có hệ thống. Ước tính để tạo ra một mô hình AI như Gemini, chi phí có thể lên tới hàng trăm triệu USD.

Gemini đang được quảng bá như một tiến bộ đáng kể trong xử lý ngôn ngữ tự nhiên. Thông tin chi tiết Gemini vẫn còn ít và bên dưới là những gì cần biết về sản phẩm mới của Google.

Gemini là đa phương thức

Gemini là một mô hình AI đa phương thức, có thể xử lý nhiều loại dữ liệu. Mô hình này dự kiến sẽ có thể xử lý hình ảnh và văn bản, cho phép thực hiện các tính năng như phân tích bằng văn bản biểu đồ trực quan, trang The Information đưa tin.

Google cũng đang nâng cao khả năng tạo mã của Gemini để cạnh tranh với GitHub Copilot của GitHub và OpenAI.

AI được xây dựng có mục đích là câu trả lời cho trải nghiệm khách hàng tốt hơn.

Trong một bài đăng trên blog, Google cho biết sau khi quá trình thử nghiệm và tinh chỉnh hoàn tất, Gemini sẽ có sẵn với nhiều kích cỡ và khả năng khác nhau.

Lấy cảm hứng từ AlphaGo

Gemini lấy cảm hứng từ AlphaGo, được DeepMind phát triển và trở thành chương trình máy tính đầu tiên đánh bại một người chơi cờ vây chuyên nghiệp là con người. Lịch sử AI được lập vào năm 2016 khi AlphaGo đánh bại Lee Sedol, một trong những kỳ thủ cờ vây vĩ đại nhất thế giới, trong trận đấu của chính ông ta.

Demis Hassabis, Giám đốc điều hành DeepMind, nói với trang Wired rằng các kỹ thuật được sử dụng trong AlphaGo sẽ kết hợp với công nghệ hỗ trợ ChatGPT. Ông lý giải: “Ở cấp độ cao, bạn có thể coi Gemini như sự kết hợp một số điểm mạnh của hệ thống AlphaGo với khả năng ngôn ngữ tuyệt vời của các mô hình lớn”.

Phiên bản đầu tiên

Google đã giao phiên bản đầu tiên của Gemini cho một nhóm nhỏ các công ty, theo The Information.

Một người đã thử nghiệm công nghệ này nói rằng Gemini có thể có lợi thế hơn GPT-4 vì tận dụng dữ liệu của Google từ các sản phẩm tiêu dùng cũng như thông tin được thu thập từ internet. Báo cáo cho biết Gemini có thể hiểu chính xác hơn ý định của người dùng.

Người này cũng cho biết Gemini dường như tạo ra ít câu trả lời sai hơn, một vấn đề phổ biến trong chatbot AI được gọi là ảo giác. Các chatbot AI đôi khi đưa ra thông tin không chính xác y như thật. Trở lại vào tháng 2, video quảng cáo Bard của Google cho thấy chatbot AI này đưa ra câu trả lời không chính xác.

Các nhà nghiên cứu đằng sau công ty SemiAnalysis cũng dự đoán rằng Gemini có thể sẽ hoạt động tốt hơn GPT-4 do Google có khả năng tiếp cận các chip hàng đầu.

Hai chuyên gia Dylan Patel và Daniel Nishball thuộc SemiAnalysis cho rằng “Gemini có thể nuốt trọn cả thế giới, đánh bại GPT-4 bằng sức mạnh gấp 5 lần vì đòi hỏi ít GPU (bộ xử lý đồ họa) hơn”.

Dylan Patel và Daniel Nishball phân chia "GPU giàu" để chỉ những hệ thống AI tiêu tốn nhiều bộ xử lý đồ họa và "GPU nghèo" nhằm ám chỉ các hệ thống cần ít GPU song vẫn có sức mạnh vượt trội.

GPT-4 được coi là đại diện cho mô hình cần nhiều GPU, trong khi Gemini ở bên còn lại. Dẫn hàng loạt số liệu, họ kết luận rằng Gemini vượt trội GPT-4 về thước đo hiệu suất liên quan đến tính toán máy tính (FLOP).

“Ai có thể cứu chúng ta khỏi việc trở thành nô lệ cho GPU Nvidia không? Câu trả lời có thể là Gemini”, một ý kiến nêu.

Bằng cách phát triển Gemini, Google hy vọng sẽ tạo ra một phần mềm AI đàm thoại có thể hiểu và phản hồi người dùng một cách tự nhiên, chính xác và sáng tạo.

Google đang cố gắng dập tắt bất kỳ quan điểm cho rằng hãng tụt hậu về mặt công nghệ. Vào tháng 5, Sundar Pichai đã tiết lộ hơn 10 sản phẩm hỗ trợ AI tại I/O - sự kiện thường niên của Google dành cho các nhà phát triển phần mềm.

Việc xây dựng công nghệ AI đáng tin cậy đòi hỏi nguồn lực khổng lồ mà chỉ có những tập đoàn công nghệ có quy mô như Microsoft và Google mới đáp ứng được. Tinglong Dai, giáo sư chuyên nghiên cứu về tương tác giữa con người và AI tại Đại học Johns Hopkins (Mỹ), nói có hai lý do cho điều này.

Thứ nhất, cần hàng chục ngàn máy tính trong cơ sở hạ tầng đám mây để huấn luyện và vận hành hệ thống AI.

Thứ hai, generative AI đòi hỏi nguồn nhân lực khổng lồ liên tục thử nghiệm và điều chỉnh mô hình ngôn ngữ, làm sao để chúng không cung cấp những câu trả lời quá vô nghĩa hoặc mang hàm ý xúc phạm.

Kể từ năm 2020, OpenAI đã phát triển các công nghệ generative AI trên một siêu máy tính khổng lồ do Microsoft chế tạo, sử dụng 10.000 GPU (bộ xử lý đồ họa) của Nvidia. Microsoft đã đầu tư hơn 10 tỉ USD vào OpenAI và là nhà tài trợ lớn nhất của “cha đẻ ChatGPT”.

“Câu hỏi lớn nhất là liệu Google có tiếp tục dẫn đầu mảng tìm kiếm hay không khi biến AI trở thành trọng tâm phát triển mới. Lần đầu tiên sau 15 năm, Google phải đối mặt với một thách thức thực sự. Đây cũng là lần đầu tiên họ chậm một bước so với nhịp phát triển chung của thị trường”, Matt Naeger, Giám đốc chiến lược và tiếp thị tại hãng Merkle, nhận định.

Song với vị thế hiện tại, khả năng Google bị đánh bại được cho là tương đối nhỏ. Hơn nữa, nếu thành công với Gemini, Google sẽ càng có thêm nhiều sức mạnh cạnh tranh trong cuộc đua AI.

Đối đầu với GPT-4 Turbo

Trước khi Google trình làng Gemini, OpenAI hồi đầu tháng 11 đã giới thiệu GPT-4 Turbo, mô hình ngôn ngữ lớn mạnh hơn, nhanh hơn và rẻ hơn GPT-4, tại hội nghị nhà phát triển đầu tiên của hãng.

Các cải tiến của GPT-4 Turbo gồm bộ nhớ lớn hơn để ghi nhớ tới 300 trang văn bản chỉ trong một lời nhắc, giá rẻ hơn cho nhà phát triển và ngày được đào tạo kiến thức đến tháng 4.2023, theo Sam Altman – Giám đốc điều hành OpenAI.

GPT-4 Turbo gồm hai phiên bản, một phiên bản phân tích văn bản chặt chẽ và phiên bản còn lại có tìm hiểu về bối cảnh của văn bản, hình ảnh. Theo OpenAI, hai phiên bản GPT-4 Turbo sẽ được cung cấp cho các nhà phát triển vài tuần tới.

OpenAI cho biết đã tối ưu hóa hiệu suất để có thể cung cấp GPT-4 Turbo với mức giá cho chuỗi ký tự đầu vào và đầu ra lần lượt chỉ bằng 1/3 và 1/2 so với giá GPT-4.

Nếu như GPT-4 được cập nhật dữ liệu lấy từ các trang web đến tháng 9.2021 thì GPT-4 Turbo lấy dữ liệu cập nhật tới tháng 4.2023. GPT-4 Turbo có thể đưa ra câu trả lời với độ dài tương đương hơn 300 trang văn bản trong một lần nhận yêu cầu.

Khi ra mắt, Gemini có thể phải cạnh tranh với cả GPT-4 Turbo thay vì chỉ GPT-4.