Nhịp đập khoa học

Google ra mắt Project Astra, Gemini Flash, Veo và các vũ khí AI mới để cạnh tranh với OpenAI

Sơn Vân • 15/05/2024 07:45

Tại sự kiện dành các nhà phát triển I/O 2024 rạng sáng 15.5 giờ Việt Nam, Alphabet (công ty mẹ của Google) đã trình diễn cách họ đang xây dựng trí tuệ nhân tạo (AI) trên toàn bộ các hoạt động kinh doanh của mình, gồm cả việc nâng cấp chatbot Gemini và cải thiện công cụ tìm kiếm nổi tiếng nhằm cạnh tranh với các đối thủ.

Loạt thông báo này nhấn mạnh những nỗ lực của Google trong việc làm mới các sản phẩm kể từ khi OpenAI (được Microsoft hậu thuẫn) ra mắt ChatGPT vào tháng 11.2022 và gây ấn tượng với công chúng, đe dọa vị thế thống trị lâu dài của Google với tìm kiếm trực tuyến và AI.

Những vũ khí mới nhất của Google có một thành viên mới trong dòng mô hình AI Gemini 1.5 được gọi là Flash, chạy nhanh hơn và rẻ hơn; nguyên mẫu mang tên Project Astra, có thể trò chuyện với người dùng về bất cứ thứ gì được chụp bằng camera smartphone của họ theo thời gian thực; kết quả tìm kiếm được phân loại theo tiêu đề do AI tạo.

Sundar Pichai, Giám đốc điều hành của Alphabet, cho biết: "Đây là thời điểm để phát triển và nắm bắt cơ hội", khi được hỏi liệu các bản cập nhật AI có thể gây rủi ro cho hoạt động kinh doanh sinh lời (chủ yếu đến từ quảng cáo trên Google Search và các sản phẩm khác) của Google hay không.

Buổi giới thiệu sản phẩm AI mới tại sự kiện I/O thường niên của Google ở thành phố Mountain View (bang California, Mỹ) diễn ra sau màn trình diễn mô hình AI mới GPT-4o ngắn hơn của đối thủ OpenAI rạng sáng 14.5.

OpenAI đã trình diễn cách phiên bản mới ChatGPT, với GPT-4o làm nền tảng, có thể trả lời bằng giọng nói cho các câu trả lời với ngữ điệu giống con người cho bất kỳ gợi ý bằng văn bản hoặc hình ảnh nào.

Sam Altman, Giám đốc điều hành OpenAI, viết rằng công ty khởi nghiệp này cung cấp phần mềm "giống như AI trong phim". Thông báo mới của Google đôi khi đề cập đến những lĩnh vực tương tự, nhấn mạnh sự cạnh tranh khốc liệt giữa hai nhà phát triển AI hàng đầu.

Ví dụ, đơn vị AI của Alphabet, Google DeepMind, đã nỗ lực xây dựng công nghệ có thể thực hiện các nhiệm vụ hàng ngày cho người tiêu dùng. Những kết quả ban đầu được thể hiện trong Project Astra, công cụ có thể sử dụng camera smartphone và đưa ra kết luận về thế giới xung quanh.

Trong một video được trình chiếu ở sự kiện I/O, một người dùng triển khai Project Astra để xác định cái loa và định vị chiếc kính để nơi khác trong phòng. Google cũng tiết lộ cách họ có thể kết hợp Project Astra với Gemini Live, trợ lý giọng nói và văn bản có âm thanh tự nhiên hơn so với Google Google Assistant trước đây.

Demis Hassabis, Giám đốc điều hành Google DeepMind, cho biết về công việc đằng sau Project Astra: "Chúng tôi muốn xây dựng một tác nhân AI đa năng thực sự hữu ích trong cuộc sống hàng ngày".

Một lĩnh vực khác mà Google đang đối đầu với các đối thủ là tạo video. Công ty đã giới thiệu Veo, mô hình AI có thể tạo ra video độ phân giải 1080p kéo dài hơn 1 phút, nhưng tạm thời chỉ dành cho những nhà sáng tạo được phê duyệt sử dụng dưới dạng bản xem trước, trong đó có nhà làm phim Donald Glover. Donald Glover đã giành được nhiều giải thưởng danh giá cho công việc của mình, gồm 12 giải Grammy, 2 giải Quả cầu vàng và 2 giải Primetime Emmy.

Trước đó, OpenAI đã quảng bá Sora, mô hình AI hỗ trợ chuyển văn bản thành video chân thực dài 1 phút, với các nhà quản lý Hollywood và khiến ngành công nghiệp sáng tạo lo lắng.

Google cũng thông báo về những cải tiến với mô hình Gemini Pro 1.5 của họ, có khả năng xử lý một lượng lớn dữ liệu. Gã khổng lồ công nghệ Mỹ cho biết đang tăng gấp đôi lượng đó lên 2 triệu token, nghĩa là AI có khả năng trả lời các câu hỏi khi được cung cấp hàng nghìn trang văn bản hoặc hơn một giờ video để xử lý.

Mô hình Gemini Pro (hiện có thể hiểu và xử lý lượng thông tin lên đến 1 triệu token trong một truy vấn duy nhất) sẽ có sẵn cho các thuê bao dịch vụ Gemini Advanced của Google.

Cổ phiếu của Alphabet tăng 1% lên 172,59 USD vào chiều 14.5 (giờ Mỹ).

Chip mới, tìm kiếm được cải tiến

Google cũng tiết lộ những nỗ lực của mình để cung cấp năng lượng cho AI bằng các chip mới và cải tiến lại công cụ tìm kiếm cùng tên.

Tại sự kiện I/O, Google đã công bố bộ xử lý Tensor thế hệ thứ sáu (TPU), nhằm mục đích cung cấp cho họ và khách hàng dùng Google Cloud sự lựa chọn thay thế bộ xử lý đồ họa (GPU) mạnh mẽ của Nvidia, hãng chip có giá trị nhất thế giới. Chip mới này sẽ có sẵn cho khách hàng đám mây của Google vào cuối năm 2024, công ty cho biết.

Với người dùng Google Search ở Mỹ duyệt web bằng tiếng Anh, công ty cho biết sẽ sớm sử dụng AI để giúp tổ chức kết quả tìm kiếm cho các truy vấn về ăn uống, công thức nấu ăn và sau đó là phim ảnh, sách cùng các nội dung khác.

Cũng với tìm kiếm trên Google, công ty đang triển khai tính năng AI Overviews cho tất cả người dùng ở Mỹ trong tuần này, sau một thời gian dài thử nghiệm công khai kể từ sự kiện I/O năm ngoái. Tính năng này sử dụng AI tạo sinh để tổng hợp thông tin và trả lời các truy vấn phức tạp hơn mà không có câu trả lời đơn giản nào trên web.

Nhà phân tích Jacob Bourne của hãng eMarketer cho biết: "Phản ứng ra mắt AI Overviews trong tuần này sẽ là một chỉ báo về khả năng thích ứng của Google Search để đáp ứng các yêu cầu trong kỷ nguyên AI tạo sinh. Để duy trì lợi thế cạnh tranh và đáp ứng yêu cầu từ các nhà đầu tư, Google sẽ cần tập trung vào việc chuyển đổi các đổi mới AI của mình thành các sản phẩm và dịch vụ có lợi nhuận ở quy mô lớn".

Quảng cáo sẽ vẫn nằm trong các vị trí trên một trang web nhất định của Google, công ty cho biết và AI Overviews sẽ triển khai cho hơn 1 tỉ người vào cuối năm 2024.

Doanh thu của Alphabet đạt 307,4 tỉ USD trong năm 2023, phần lớn trong số đó đến từ quảng cáo trên Google Search và các sản phẩm khác.

Ngoài ra, Google còn trình diễn một thử nghiệm cho phép người dùng đặt câu hỏi về các video mà họ tải lên Search, giống như cách có thể làm với hình ảnh hiện nay. Google đã trình diễn cách thức này có thể giúp chẩn đoán hỏng hóc của máy hát đĩa bị hỏng.