Nhịp đập khoa học

Alibaba ra mắt các mô hình AI chuyên về toán học, được quảng cáo vượt trội GPT-4o của OpenAI

Sơn Vân • 10/08/2024 17:32

Alibaba đang hướng đến mục tiêu nâng cao tiêu chuẩn trong phát triển trí tuệ nhân tạo (AI) bằng cách ra mắt một nhóm mô hình ngôn ngữ chuyên về toán học có tên Qwen2-Math, được quảng cáo có thể vượt trội khả năng của GPT-4o của OpenAI trong lĩnh vực đó.

"Trong năm qua, chúng tôi đã dành nhiều nỗ lực đáng kể để nghiên cứu và nâng cao khả năng lập luận của các mô hình ngôn ngữ lớn, đặc biệt tập trung vào khả năng giải quyết các bài toán số học và toán học", nhóm Qwen, một phần đơn vị điện toán đám mây của Alibaba, cho biết trong một bài viết đăng trên nền tảng dành cho nhà phát triển GitHub.

Mô hình ngôn ngữ lớn là công nghệ làm nền tảng cho các dịch vụ AI tạo sinh, chẳng hạn chatbot AI, có thể nhận dạng, tóm tắt, dịch, dự đoán bằng cách sử dụng các tập dữ liệu rất lớn.

Được xây dựng trên mô hình ngôn ngữ lớn Qwen2 do Alibaba phát hành vào tháng 6, các Qwen2-Math gồm ba phiên bản dựa trên thang tham số của chúng. Trong học máy, tham số là các biến số có mặt ở hệ thống AI được đào tạo, giúp xác định cách dữ liệu đầu vào được xử lý để tạo ra kết quả đầu ra mong muốn.

“
Học máy là một lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định.
Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...
Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.

Theo bài đăng của nhóm Qwen, mô hình có số lượng tham số lớn nhất là Qwen2-Math-72B-Instruct, vượt trội các mô hình AI do Mỹ phát triển, gồm GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic, Gemini 1.5 Pro của Google và Llama-3.1-405B của Meta Platforms, trong các chuẩn mực toán học.

"Chúng tôi hy vọng rằng Qwen2-Math có thể đóng góp cho cộng đồng để giải quyết các bài toán phức tạp", trích bài viết của Alibaba. Theo đó, các Qwen2-Math đã được thử nghiệm trên cả chuẩn mực toán học tiếng Anh và tiếng Trung, gồm cả GSM8K (tập dữ liệu gồm 8.500 bài toán tiểu học đa dạng về mặt ngôn ngữ chất lượng cao), OlympiadBench (chuẩn mực khoa học đa phương thức song ngữ cấp cao), gaokao (kỳ thi tuyển sinh đại học khó khăn ở Trung Quốc).

Nhóm Qwen cho biết các mô hình mới vẫn còn một số hạn chế. Theo nhóm Qwen, kế hoạch là sớm phát hành các mô hình ngôn ngữ lớn song ngữ, với các mô hình đa ngôn ngữ cũng đang trong quá trình phát triển.

alibaba-ra-mat-cac-mo-hinh-ai-chuyen-ve-toan-hoc-duoc-quang-cao-vuot-troi-gpt-4o-cua-openai.jpg — Các mô hình ngôn ngữ lớn chuyên về toán học càng củng cố thêm uy tín về AI cho Alibaba - Ảnh: Shutterstock

Các mô hình ngôn ngữ chuyên về toán học của Alibaba tiếp tục củng cố thêm uy tín về AI cho công ty có trụ sở tại thành phố Hàng Châu (Trung Quốc), sau khi Qwen-72B-Instruct gần đây dẫn đầu bảng xếp hạng 10 mô hình AI nguồn mở hàng đầu thế giới.

Alibaba đã mở cửa Tongyi Qianwen cho các nhà phát triển bên thứ ba trong hơn một năm. Mã nguồn mở cung cấp quyền truy cập công khai vào mã nguồn của chương trình, cho phép các nhà phát triển phần mềm bên thứ ba sửa đổi hoặc chia sẻ thiết kế của chương trình, sửa các liên kết bị hỏng hoặc mở rộng khả năng của chương trình.

Hồi tháng 7, Qwen2-72B-Instruct chỉ đứng sau GPT-4o và Claude 3.5 Sonnet trong bảng xếp hạng mô hình ngôn ngữ lớn của SuperClue. Đây là một nền tảng đánh giá chuẩn đánh giá các mô hình ngôn ngữ lớn dựa trên các số liệu như tính toán, suy luận logic, lập trình và hiểu văn bản cùng những thứ khác.

Theo SuperClue, khoảng cách giữa các mô hình AI của Trung Quốc và Mỹ dường như đang bị thu hẹp lại. SuperClue cho biết Trung Quốc đã đạt được tiến bộ đáng kể trong việc thúc đẩy các mô hình ngôn ngữ lớn trong nước nửa đầu năm 2024.

Một bài kiểm tra riêng biệt được công bố vào tháng 7 bởi LMSYS cho thấy Qwen2-72B được xếp hạng 20, trong khi các mô hình từ OpenAI, Anthropic và Google chiếm hầu hết vị trí trong top 10. LMSYS là tổ chức nghiên cứu mô hình AI được Đại học California – Berkeley (Mỹ) hỗ trợ.

Nhiều mô hình AI từ Trung Quốc đến Mỹ và Pháp trả lời sai câu hỏi: 9,90 hay 9,11 lớn hơn?

Các mô hình ngôn ngữ lớn tiên tiến như GPT-4o, Claude 3.5 Sonnet và Mistral 7B đều trả lời sai câu hỏi toán học cơ bản này hồi giữa tháng 7 vừa qua.

Làn sóng các chatbot AI được phép sử dụng công khai ở Trung Quốc đại lục đã giúp nhiều người dùng tạo ra nội dung mới, gồm âm thanh, mã lập trình, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp, để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã dẫn đến sự phát triển của hơn 200 mô hình ngôn ngữ lớn. Bất chấp có nhiều tài nguyên hỗ trợ các chatbot như vậy, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản trong chương trình thực tế Singer 2024 của Trung Quốc. Đây là cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Tôn Nam (Trung Quốc) nhận được 13,8% phiếu bầu trực tuyến để vượt qua ca sĩ Chante Moore (Mỹ), người nhận được 13,11% phiếu bầu). Một số cư dân mạng địa phương đã chế giễu bảng xếp hạng, cho rằng con số sau lớn hơn (tức 13,11 lớn hơn 13,8%)! Một người gợi ý hỏi AI và kết quả nhận được là hỗn hợp.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng đã tự sửa sữa chữa và xin lỗi sau khi người dùng đặt câu hỏi sử dụng phương pháp suy luận gọi là “chuỗi suy nghĩ”. Đó là phương pháp suy luận mà trong đó ứng dụng AI được hướng dẫn từng bước để giải quyết vấn đề.

Mô hình ngôn ngữ lớn Qwen của Alibaba đã sử dụng Python Code Interpreter (trình thông dịch mã Python) để tính toán câu trả lời. Trong khi Ernie Bot của Baidu mất 6 bước để có được câu trả lời chính xác. Mô hình ngôn ngữ lớn Doubao của ByteDance (chủ sở hữu TikTok) đã tạo ra phản hồi trực tiếp với một ví dụ: "Nếu bạn có 9,90 USD và 9,11 USD thì rõ ràng 9,90 USD là nhiều tiền hơn".

“Mô hình ngôn ngữ lớn rất kém trong toán học. Điều này rất phổ biến”, theo ông Ngô Di Quyền, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở thành phố Hàng Châu.

Ngô Di Quyền nói AI tạo sinh không có khả năng toán học vốn có và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu được huấn luyện. Ông cho biết một số mô hình ngôn ngữ lớn đạt kết quả tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, nghĩa là thuật toán đã ghi nhớ các câu trả lời, vì những câu hỏi tương tự có trong dữ liệu huấn luyện của nó.

“Thế giới AI được mã hóa – các con số, từ, dấu câu và khoảng trống đều được xử lý như nhau. Do đó, bất kỳ thay đổi nào trong câu hỏi đều có thể ảnh hưởng lớn đến kết quả”, Ngô Di Quyền nói.

Vấn đề toán học cho thấy công nghệ AI tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Đây là tình huống có thể khiến Trung Quốc tạm dừng nỗ lực thiết lập luật AI quốc gia thống nhất. Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh, Trịnh Cát, giáo sư luật công tại Đại học Giao thông Thượng Hải nói tại một hội nghị ở thủ đô Bắc Kinh tuần trước.

"Thử nghiệm so sánh số” giữa các mô hình ngôn ngữ lớn đã lan truyền trên mạng sau khi Bill Yuchen Lin (nhà nghiên cứu từ Viện Allen) và Riley Goodside (kỹ sư ra lệnh tại hãng công nghệ Scale AI) nhấn mạnh những thiếu sót toán học cơ bản của AI.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các mô hình ngôn ngữ lớn tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic và Mistral 7B của Mistral AI (Pháp) đều trả lời là 9,11. Trong bài đăng trên mạng xã hội X, Riley Goodside nói rằng không có ý định làm suy giảm giá trị mô hình ngôn ngữ lớn, mà muốn giúp chúng hiểu và khắc phục lỗi.

Riley Goodside cho hay: “Các vấn đề đã biết trước đây trong mô hình ngôn ngữ lớn, ví dụ kém toán học, đang được giảm thiểu tốt từ những lỗi gây sốc cho người dùng. Tuy nhiên, chúng ta nên sẵn sàng cho điều này tiếp tục xảy ra trong nhiều lĩnh vực nhiệm vụ khác nhau”.