Alibaba Cloud là công ty mới nhất trong số nhiều hãng Trung Quốc tung ra các mô hình trí tuệ nhân tạo (AI) cần nhiều thời gian hơn để lý luận thông qua các truy vấn toán học và lập trình.
Các hãng công nghệ Trung Quốc đang vội vã công bố mô hình lý luận khi tiến tới thu hẹp khoảng cách của Trung Quốc với Mỹ trong lĩnh vực này. Mô hình lý luận là mô hình AI tiên tiến được thiết kế để dành nhiều thời gian hơn cho việc "suy nghĩ và phản ánh" trước khi đưa ra phản hồi.
Alibaba Cloud, đơn vị điện toán đám mây của gã khổng lồ thương mại điện tử Alibaba, cung cấp bản xem trước mô hình lý luận QwQ của riêng mình, chuyên về toán học, lập trình và khám phá khoa học. QwQ tương tự mô hình o1 mà OpenAI ra mắt vào tháng 9.
Alibaba Cloud đã phát triển QwQ để nâng cao khả năng lý luận của AI, ngang bằng hoặc vượt trội o1 trong một số bài kiểm tra chuẩn, công ty tuyên bố. Trong 4 đánh giá đo lường khả năng của mô hình AI, QwQ được xếp hạng cao hơn ở hai bài kiểm tra toán, ngang o1 về khả năng giải quyết vấn đề và lập trình, theo Alibaba Cloud.
Việc Alibaba Cloud phát hành QwQ diễn ra sau khi hàng loạt mô hình lý luận được các hãng công nghệ Trung Quốc công bố những tuần gần đây, cho thấy sự tiến bộ mà họ đạt được để bắt kịp các đối thủ ở Mỹ.
Xu Liang, doanh nhân AI tại thành phố Hàng Châu (Trung Quốc), nói các công ty địa phương đang nhanh chóng bắt kịp OpenAI khi cạnh tranh với nhau trên thị trường trong nước. Xu Liang cho biết: "o1 của OpenAI đã chỉ ra hướng đi. Với một số nghiên cứu có liên quan, các hãng công nghệ Trung Quốc cuối cùng sẽ đạt được tiến bộ trong lĩnh vực này".
Khi phát hành bản xem trước dòng mô hình o1 của mình vào tháng 9, OpenAI (Mỹ) đã quảng cáo về khả năng "dành nhiều thời gian hơn để suy nghĩ trước khi phản hồi", mô phỏng tư duy của con người.
Các mô hình o1 được huấn luyện để “tinh chỉnh quá trình suy nghĩ, thử chiến lược khác nhau và nhận ra lỗi” để có thể lý luận qua nhiệm vụ phức tạp và giải quyết những vấn đề khó hơn so với mô hình AI tạo sinh trước đó, OpenAI thông báo thời điểm đó.
Do Alibaba và Tencent Holdings hậu thuẫn, Moonshot AI là một trong những công ty Trung Quốc đầu tiên phản ứng bằng cách giới thiệu phiên bản Explore của chatbot Kimi đầu tháng 10, được cập nhật khả năng lý luận tương tự và mở rộng chức năng tìm kiếm trực tuyến.
Được yêu cầu so sánh kết quả từ việc đầu tư vào vàng hay gã khổng lồ ô tô điện BYD (Trung Quốc), Kimi trải qua nhiều bước khác nhau để thu thập giá cổ phiếu và vàng trước khi tính toán để đưa ra câu trả lời trong vòng vài phút.
Các hãng khác cũng nhanh chóng tung ra mô hình lý luận của riêng mình, gồm cả DeepSeek (công ty khởi nghiệp AI có trụ sở tại Hàng Châu, thủ phủ tỉnh Chiết Giang) và Shanghai AI Lab (công ty game Kunlun Tech, chủ sở hữu trình duyệt web Opera). Tất cả sản phẩm này đều được tung ra trong hai tuần qua, với khoảng thời gian chỉ vài ngày cách nhau.
DeepSeek cho biết mô hình r1 của họ vượt trội so với o1 ở một nửa trong số 6 tiêu chính đánh giá gồm toán học, lập trình và khám phá khoa học.
Shanghai AI Lab thiết kế quy trình nâng cao để hướng dẫn cách tiếp cận giải quyết vấn đề của mô hình InternThinker thông qua việc hiểu các truy vấn, nhớ lại kiến thức, lập kế hoạch và triển khai nhiệm vụ, tự phản ánh và tóm tắt.
Dù rất nhiệt tình, DeepLearning.AI (hãng công nghệ giáo dục AI) cảnh báo thời gian phản hồi dài hơn đồng nghĩa các mô hình AI này không phải lúc nào cũng phù hợp với nhiệm vụ hàng ngày trong thực tế, đặc biệt là khi xét đến chi phí cao hơn.
"Những mô hình lý luận có hiệu suất tốt trong các vấn đề toán học và khoa học... thường chậm và tốn kém", DeepLearning.AI cho biết trong bài đăng trên trang web của mình.
Nhà sáng lập Moonshot AI ca ngợi cải tiến quan trọng trong o1
Sự phát triển của AI đã chứng kiến sự thay đổi mang tính bước ngoặt với việc OpenAI ra mắt mô hình mới nhất o1 hồi tháng 9, theo Yang Zhilin - nhà sáng lập Moonshot AI, một trong những công ty AI tạo sinh lớn nhất Trung Quốc.
Yang Zhilin nói một “cải tiến quan trọng” được thực hiện bởi o1 là có thể hoàn thành các nhiệm vụ mà con người sẽ mất nhiều thời gian để suy nghĩ và thực hiện.
Sự phát triển này đại diện cho sự thay đổi quan trọng vì các nhà phát triển mô hình ngôn ngữ lớn, khi đã hết dữ liệu tự nhiên để đào tạo mô hình, đang chuyển sang kỹ thuật học tăng cường để tái tạo quá trình suy nghĩ và từ đó tạo ra nhiều dữ liệu hơn, theo Yang Zhilin.
Trong một bài đăng trên blog, OpenAI cho biết thuật toán học tăng cường quy mô lớn của họ "dạy cho mô hình AI cách suy nghĩ một cách hiệu quả bằng cách sử dụng chuỗi suy nghĩ". Theo OpenAI, o1 vượt trội so với các mô hình ngôn ngữ lớn khác trong các nhiệm vụ nặng về lý luận ở lĩnh vực khoa học, lập trình và toán học.
“o1 dành nhiều thời gian hơn để suy nghĩ kỹ trước khi phản hồi, giống như cách một người sẽ làm”, OpenAI cho hay.
"Thay vì trả lời một câu hỏi đơn giản, nó có thể dành 20 giây để suy nghĩ", Yang Zhilin nói về o1.
"Trong tương lai, bạn có thể thấy AI có khả năng thực hiện các nhiệm vụ kéo dài vài phút hoặc thậm chí vài giờ, chuyển đổi giữa các chế độ khác nhau với khả năng lý luận ngày càng mạnh mẽ. Tôi tin rằng đây là những xu hướng rất quan trọng trong sự phát triển của AI vào tương lai", Yang Zhilin cho biết thêm.
Được thành lập năm ngoái, Moonshot AI gần đây trở thành kỳ lân có giá trị cao nhất trong số các công ty khởi nghiệp AI đang phát triển mạnh mẽ ở Trung Quốc đại lục. Đó là nhóm 4 công ty khởi được gọi là “những con hổ AI mới của Trung Quốc”, có cả Minimax, Baichuan và Zhipu AI.
Ban đầu được hỗ trợ bởi gã khổng lồ thương mại điện tử Alibaba (Trung Quốc), Moonshot AI gần đây nhận khoản đầu tư từ Tencent, nâng định giá từ 3 tỉ USD lên 3,3 tỉ USD.
Chatbot Kimi của Moonshot AI được xây dựng trên mô hình ngôn ngữ lớn Kimi do công ty tự phát triển, nhanh chóng trở nên phổ biến tại Trung Quốc đại lục sau khi ra mắt vào tháng 10.2023, vì có khả năng xử lý các truy vấn văn bản cực dài lên tới 2 triệu ký tự Trung Quốc.
Giữa cuộc cạnh tranh khốc liệt với những công ty khởi nghiệp khác và hãng công nghệ lớn ở Trung Quốc để đưa sản phẩm AI tạo sinh ra thị trường, Moonshot AI hồi tháng 8 đã tham gia cuộc chiến giá mô hình ngôn ngữ lớn, giảm 1/2 giá một tính năng mới trên Kimi.
Tính năng này là bộ nhớ đệm ngữ cảnh, cho phép các nhà phát triển mô hình ngôn ngữ lớn lưu trữ thông tin trong một thời gian nhất định. Thông tin này có thể được yêu cầu thường xuyên để mô hình ngôn ngữ lớn của họ phản hồi nhanh hơn với các truy vấn tương tự.
OpenAI và nhiều công ty tìm cách mới giúp AI thông minh hơn khi phương pháp hiện tại gặp hạn chế
OpenAI cùng các công ty AI khác đang tìm cách vượt qua những sự chậm trễ và thách thức không ngờ trong quá trình tạo ra mô hình ngôn ngữ ngày càng lớn hơn, bằng cách phát triển kỹ thuật đào tạo sử dụng phương pháp giống con người hơn để các thuật toán có thể "suy luận".
Hàng chục nhà khoa học, nhà nghiên cứu và nhà đầu tư AI nói với Reuters rằng họ tin rằng những kỹ thuật này, vốn là nền tảng cho o1, có thể định hình lại cuộc đua AI và tác động đến các loại tài nguyên mà một số công ty đòi hỏi ngày càng cao, từ năng lượng đến chip.
Sau khi OpenAI trình làng chatbot ChatGPT cách đây hai năm, các hãng công nghệ (được hưởng lợi rất lớn từ cơn sốt AI) cho rằng việc bổ sung dữ liệu và sức mạnh tính toán sẽ dẫn đến những mô hình AI ngày càng cải tiến. Song hiện tại, một số nhà khoa học AI nổi tiếng nhất đang lên tiếng về những hạn chế của triết lý "càng lớn càng tốt" này.
Ilya Sutskever, đồng sáng lập OpenAI và Safe Superintelligence, gần đây nói với Reuters rằng kết quả từ việc mở rộng quy mô tiền đào tạo (giai đoạn đào tạo mô hình AI sử dụng lượng lớn dữ liệu chưa được gắn nhãn để hiểu các mẫu và cấu trúc ngôn ngữ) đã đạt đến giới hạn.
Ilya Sutskever, cựu Giám đốc khoa học OpenAI, là người ủng hộ sớm cho việc đạt được những bước tiến vượt bậc trong AI tạo sinh thông qua việc sử dụng nhiều dữ liệu và sức mạnh tính toán hơn trong giai đoạn tiền đào tạo, điều này cuối cùng đã tạo ra ChatGPT. Ilya Sutskever rời OpenAI hồi tháng 5 để thành lập Safe Superintelligence.
"Những năm 2010 là thời đại của việc mở rộng quy mô, giờ đây chúng ta quay trở lại thời đại của sự ngạc nhiên và khám phá một lần nữa. Nhiều người đang tìm kiếm điều mới mẻ tiếp theo. Việc mở rộng đúng hướng quan trọng hơn bao giờ hết", ông nhấn mạnh.
Ilya Sutskever từ chối chia sẻ thêm chi tiết về cách đội ngũ của ông giải quyết vấn đề này, ngoài việc cho biết SSI đang nghiên cứu một phương pháp tiếp cận thay thế để mở rộng quy mô tiền đào tạo.
Đằng sau hậu trường, nhà nghiên cứu tại các phòng thí nghiệm AI lớn đã gặp phải sự chậm trễ và kết quả đáng thất vọng trong cuộc đua tung ra mô hình ngôn ngữ lớn vượt trội hơn GPT-4 (gần hai năm tuổi) của OpenAI, theo ba nguồn tin quen thuộc với các vấn đề nội bộ.
Việc "chạy đào tạo" cho các mô hình lớn có thể tốn hàng chục triệu USD do phải dùng cùng lúc hàng trăm chip AI. Điều này dễ gặp trục trặc do phần cứng phức tạp, các nhà nghiên cứu có thể không biết hiệu suất cuối cùng của mô hình cho đến khi kết thúc quá trình "chạy đào tạo", có thể mất nhiều tháng.
Một vấn đề khác là các mô hình ngôn ngữ lớn chiếm lượng lớn dữ liệu và gần như cạn kiệt dữ liệu dễ truy cập trên thế giới. Tình trạng thiếu điện cũng cản trở các lần "chạy đào tạo", vì quá trình này cần rất nhiều năng lượng.
Để vượt qua những thách thức đó, các nhà nghiên cứu đang khám phá test-time compute, kỹ thuật cải thiện các mô hình AI hiện có trong giai đoạn được gọi là "suy luận" hoặc khi mô hình đang được sử dụng. Ví dụ, thay vì chọn ngay một câu trả lời duy nhất, mô hình AI có thể tạo và đánh giá nhiều khả năng cùng lúc, cuối cùng chọn cách tối ưu.
Phương pháp này cho phép các mô hình AI dành nhiều sức mạnh xử lý hơn cho nhiệm vụ phức tạp như vấn đề toán học, lập trình, hoặc hoạt động đòi hỏi lý luận và ra quyết định giống con người.
"Hóa ra chỉ cần để bot suy nghĩ trong 20 giây khi chơi một ván poker cũng đem lại hiệu suất tương đương với việc mở rộng mô hình lên 100.000 lần và đào tạo nó lâu gấp 100.000 lần", Noam Brown, nhà nghiên cứu tại OpenAI, nói tại hội nghị TED AI ở thành phố San Francisco (Mỹ) tháng 10.
Mô hình o1 có thể "suy nghĩ" về các vấn đề theo nhiều bước, tương tự lý luận của con người. Nó cũng sử dụng dữ liệu và phản hồi được tuyển chọn từ các tiến sĩ và chuyên gia trong ngành. Bí quyết của o1 là bộ đào tạo khác được thực hiện trên các mô hình nền tảng, chẳng hạn GPT-4. OpenAI có kế hoạch áp dụng kỹ thuật này với nhiều mô hình nền tảng lớn hơn.
Nhà nghiên cứu tại các phòng thí nghiệm AI hàng đầu khác, từ Anthropic, xAI và Google DeepMind, đã làm việc để phát triển phiên bản kỹ thuật của riêng họ, theo 5 người quen thuộc với những nỗ lực này.
"Chúng tôi thấy có rất nhiều thứ dễ thực hiện để cải thiện các mô hình AI nhanh chóng. Đến khi mọi người bắt kịp, chúng tôi sẽ cố gắng đi trước ba bước nữa", Kevin Weil, Giám đốc sản phẩm OpenAI, nói tại một hội nghị công nghệ vào tháng 10.