Hotline quảng cáo: 076 4575985 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Alibaba ra mắt các mô hình AI chuyên về toán học, được quảng cáo vượt trội GPT-4o của OpenAI

Sơn Vân • 17:32 10/08/2024

Alibaba đang hướng đến mục tiêu nâng cao tiêu chuẩn trong phát triển trí tuệ nhân tạo (AI) bằng cách ra mắt một nhóm mô hình ngôn ngữ chuyên về toán học có tên Qwen2-Math, được quảng cáo có thể vượt trội khả năng của GPT-4o của OpenAI trong lĩnh vực đó.

"Trong năm qua, chúng tôi đã dành nhiều nỗ lực đáng kể để nghiên cứu và nâng cao khả năng lập luận của các mô hình ngôn ngữ lớn, đặc biệt tập trung vào khả năng giải quyết các bài toán số học và toán học", nhóm Qwen, một phần đơn vị điện toán đám mây của Alibaba, cho biết trong một bài viết đăng trên nền tảng dành cho nhà phát triển GitHub.

Mô hình ngôn ngữ lớn là công nghệ làm nền tảng cho các dịch vụ AI tạo sinh, chẳng hạn chatbot AI, có thể nhận dạng, tóm tắt, dịch, dự đoán bằng cách sử dụng các tập dữ liệu rất lớn.

Được xây dựng trên mô hình ngôn ngữ lớn Qwen2 do Alibaba phát hành vào tháng 6, các Qwen2-Math gồm ba phiên bản dựa trên thang tham số của chúng. Trong học máy, tham số là các biến số có mặt ở hệ thống AI được đào tạo, giúp xác định cách dữ liệu đầu vào được xử lý để tạo ra kết quả đầu ra mong muốn.

“
Học máy là một lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định.
Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...
Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.

Theo bài đăng của nhóm Qwen, mô hình có số lượng tham số lớn nhất là Qwen2-Math-72B-Instruct, vượt trội các mô hình AI do Mỹ phát triển, gồm GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic, Gemini 1.5 Pro của Google và Llama-3.1-405B của Meta Platforms, trong các chuẩn mực toán học.

"Chúng tôi hy vọng rằng Qwen2-Math có thể đóng góp cho cộng đồng để giải quyết các bài toán phức tạp", trích bài viết của Alibaba. Theo đó, các Qwen2-Math đã được thử nghiệm trên cả chuẩn mực toán học tiếng Anh và tiếng Trung, gồm cả GSM8K (tập dữ liệu gồm 8.500 bài toán tiểu học đa dạng về mặt ngôn ngữ chất lượng cao), OlympiadBench (chuẩn mực khoa học đa phương thức song ngữ cấp cao), gaokao (kỳ thi tuyển sinh đại học khó khăn ở Trung Quốc).

Nhóm Qwen cho biết các mô hình mới vẫn còn một số hạn chế. Theo nhóm Qwen, kế hoạch là sớm phát hành các mô hình ngôn ngữ lớn song ngữ, với các mô hình đa ngôn ngữ cũng đang trong quá trình phát triển.

alibaba-ra-mat-cac-mo-hinh-ai-chuyen-ve-toan-hoc-duoc-quang-cao-vuot-troi-gpt-4o-cua-openai.jpg — Các mô hình ngôn ngữ lớn chuyên về toán học càng củng cố thêm uy tín về AI cho Alibaba - Ảnh: Shutterstock

Các mô hình ngôn ngữ chuyên về toán học của Alibaba tiếp tục củng cố thêm uy tín về AI cho công ty có trụ sở tại thành phố Hàng Châu (Trung Quốc), sau khi Qwen-72B-Instruct gần đây dẫn đầu bảng xếp hạng 10 mô hình AI nguồn mở hàng đầu thế giới.

Alibaba đã mở cửa Tongyi Qianwen cho các nhà phát triển bên thứ ba trong hơn một năm. Mã nguồn mở cung cấp quyền truy cập công khai vào mã nguồn của chương trình, cho phép các nhà phát triển phần mềm bên thứ ba sửa đổi hoặc chia sẻ thiết kế của chương trình, sửa các liên kết bị hỏng hoặc mở rộng khả năng của chương trình.

Hồi tháng 7, Qwen2-72B-Instruct chỉ đứng sau GPT-4o và Claude 3.5 Sonnet trong bảng xếp hạng mô hình ngôn ngữ lớn của SuperClue. Đây là một nền tảng đánh giá chuẩn đánh giá các mô hình ngôn ngữ lớn dựa trên các số liệu như tính toán, suy luận logic, lập trình và hiểu văn bản cùng những thứ khác.

Theo SuperClue, khoảng cách giữa các mô hình AI của Trung Quốc và Mỹ dường như đang bị thu hẹp lại. SuperClue cho biết Trung Quốc đã đạt được tiến bộ đáng kể trong việc thúc đẩy các mô hình ngôn ngữ lớn trong nước nửa đầu năm 2024.

Một bài kiểm tra riêng biệt được công bố vào tháng 7 bởi LMSYS cho thấy Qwen2-72B được xếp hạng 20, trong khi các mô hình từ OpenAI, Anthropic và Google chiếm hầu hết vị trí trong top 10. LMSYS là tổ chức nghiên cứu mô hình AI được Đại học California – Berkeley (Mỹ) hỗ trợ.

Nhiều mô hình AI từ Trung Quốc đến Mỹ và Pháp trả lời sai câu hỏi: 9,90 hay 9,11 lớn hơn?

Các mô hình ngôn ngữ lớn tiên tiến như GPT-4o, Claude 3.5 Sonnet và Mistral 7B đều trả lời sai câu hỏi toán học cơ bản này hồi giữa tháng 7 vừa qua.

Làn sóng các chatbot AI được phép sử dụng công khai ở Trung Quốc đại lục đã giúp nhiều người dùng tạo ra nội dung mới, gồm âm thanh, mã lập trình, hình ảnh, mô phỏng, video và văn bản đúng ngữ pháp, để giải trí và hỗ trợ các công việc hàng ngày.

Nhu cầu này đã dẫn đến sự phát triển của hơn 200 mô hình ngôn ngữ lớn. Bất chấp có nhiều tài nguyên hỗ trợ các chatbot như vậy, các mô hình AI đã được chứng minh là gặp khó khăn với kiến thức toán học cơ bản trong chương trình thực tế Singer 2024 của Trung Quốc. Đây là cuộc thi hát do Đài truyền hình Hồ Nam sản xuất.

Nghệ sĩ Tôn Nam (Trung Quốc) nhận được 13,8% phiếu bầu trực tuyến để vượt qua ca sĩ Chante Moore (Mỹ), người nhận được 13,11% phiếu bầu). Một số cư dân mạng địa phương đã chế giễu bảng xếp hạng, cho rằng con số sau lớn hơn (tức 13,11 lớn hơn 13,8%)! Một người gợi ý hỏi AI và kết quả nhận được là hỗn hợp.

Cả chatbot Kimi của Moonshot AI và Baixiaoying của Baichuan ban đầu đều đưa ra câu trả lời sai. Chúng đã tự sửa sữa chữa và xin lỗi sau khi người dùng đặt câu hỏi sử dụng phương pháp suy luận gọi là “chuỗi suy nghĩ”. Đó là phương pháp suy luận mà trong đó ứng dụng AI được hướng dẫn từng bước để giải quyết vấn đề.

Mô hình ngôn ngữ lớn Qwen của Alibaba đã sử dụng Python Code Interpreter (trình thông dịch mã Python) để tính toán câu trả lời. Trong khi Ernie Bot của Baidu mất 6 bước để có được câu trả lời chính xác. Mô hình ngôn ngữ lớn Doubao của ByteDance (chủ sở hữu TikTok) đã tạo ra phản hồi trực tiếp với một ví dụ: "Nếu bạn có 9,90 USD và 9,11 USD thì rõ ràng 9,90 USD là nhiều tiền hơn".

“Mô hình ngôn ngữ lớn rất kém trong toán học. Điều này rất phổ biến”, theo ông Ngô Di Quyền, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở thành phố Hàng Châu.

Ngô Di Quyền nói AI tạo sinh không có khả năng toán học vốn có và chỉ có thể dự đoán câu trả lời dựa trên dữ liệu được huấn luyện. Ông cho biết một số mô hình ngôn ngữ lớn đạt kết quả tốt trong các bài kiểm tra toán học có thể là do “ô nhiễm dữ liệu”, nghĩa là thuật toán đã ghi nhớ các câu trả lời, vì những câu hỏi tương tự có trong dữ liệu huấn luyện của nó.

“Thế giới AI được mã hóa – các con số, từ, dấu câu và khoảng trống đều được xử lý như nhau. Do đó, bất kỳ thay đổi nào trong câu hỏi đều có thể ảnh hưởng lớn đến kết quả”, Ngô Di Quyền nói.

Vấn đề toán học cho thấy công nghệ AI tiếp tục phát triển không chỉ ở Trung Quốc đại lục mà còn trên toàn thế giới.

Đây là tình huống có thể khiến Trung Quốc tạm dừng nỗ lực thiết lập luật AI quốc gia thống nhất. Phần lớn các chuyên gia tin rằng thời điểm để soạn thảo luật AI quốc gia thống nhất có thể chưa phù hợp vì công nghệ đang phát triển quá nhanh, Trịnh Cát, giáo sư luật công tại Đại học Giao thông Thượng Hải nói tại một hội nghị ở thủ đô Bắc Kinh tuần trước.

"Thử nghiệm so sánh số” giữa các mô hình ngôn ngữ lớn đã lan truyền trên mạng sau khi Bill Yuchen Lin (nhà nghiên cứu từ Viện Allen) và Riley Goodside (kỹ sư ra lệnh tại hãng công nghệ Scale AI) nhấn mạnh những thiếu sót toán học cơ bản của AI.

Khi được hỏi số nào lớn hơn, 9,9 hay 9,11, các mô hình ngôn ngữ lớn tiên tiến như GPT-4o của OpenAI, Claude 3.5 Sonnet của Anthropic và Mistral 7B của Mistral AI (Pháp) đều trả lời là 9,11. Trong bài đăng trên mạng xã hội X, Riley Goodside nói rằng không có ý định làm suy giảm giá trị mô hình ngôn ngữ lớn, mà muốn giúp chúng hiểu và khắc phục lỗi.

Riley Goodside cho hay: “Các vấn đề đã biết trước đây trong mô hình ngôn ngữ lớn, ví dụ kém toán học, đang được giảm thiểu tốt từ những lỗi gây sốc cho người dùng. Tuy nhiên, chúng ta nên sẵn sàng cho điều này tiếp tục xảy ra trong nhiều lĩnh vực nhiệm vụ khác nhau”.

Bài liên quan

Microsoft cảnh báo kỹ thuật bẻ khóa buộc mô hình AI cung cấp công thức tạo chất nổ, vũ khí sinh học

Kẻ xấu sẽ không mất nhiều thời gian để khiến mô hình ngôn ngữ lớn (mô hình AI) cung cấp công thức về đủ thứ nguy hiểm, chẳng hạn chất nổ hay vũ khí sinh học.

Đọc tiếp

OpenAI phát triển công nghệ suy luận giống con người cho mô hình AI dù giám đốc Meta từng nói bất khả thi

Apple không dùng GPU Nvidia để đào tạo các mô hình AI mà dựa vào chip Google

DiTing - mô hình AI tạo bước ngoặt trong dự báo động đất

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Tổng Bí thư Tô Lâm đi Metro số 1 TP.HCM

20 phút trước Theo dòng thời sự

Trưa 22.2, lãnh đạo Công ty TNHH MTV Đường sắt đô thị số 1 (HURC1) cho biết, đơn vị vừa vinh dự được tiếp đón Tổng Bí thư Tô Lâm cùng đoàn lãnh đạo cấp cao của Thủ tướng Lào, các lãnh đạo TP.HCM sáng nay tại tuyến metro số 1 Bến Thành - Suối Tiên.

Thủ tướng yêu cầu khắc phục hậu quả vụ TNGT đặc biệt nghiêm trọng tại Sơn La

Ngày 22.2, Thủ tướng Phạm Minh Chính đã có Công điện chỉ đạo khắc phục hậu quả vụ tai nạn giao...
Lễ hội chùa Tây Phương là Di sản văn hóa phi vật thể quốc gia

Bộ Văn hóa, Thể thao và Du lịch mới đây đã quyết định đưa "Lễ hội truyền thống hội chùa Tây...
Hội nghị Ban Chấp hành Đảng bộ Liên hiệp Các hội KH-KT Việt Nam (mở rộng)

Ngày 21.2, Đảng bộ Liên hiệp Các hội Khoa học và Kỹ thuật Việt Nam (Liên hiệp Hội Việt Nam)...

Đừng bỏ lỡ

Chỉ 17% công dân Nhật có hộ chiếu

một giờ trước Du lịch

Hãng AFP dẫn lời Bộ Ngoại giao Nhật Bản cho biết tính đến tháng 12.2024, số hộ chiếu hợp lệ đang lưu hành là 21,6 triệu - tương đương 17,5% dân số đất nước.
Đường dây 500kV Lào Cai - Vĩnh Yên bị vướng mắc ở giải phóng mặt bằng

1 giờ trước Kinh tế - đầu tư - dự án

Vướng mắc về thủ tục dẫn đến nguy cơ không đáp ứng được tiến độ bàn giao mặt bằng để khởi công dự án vào cuối tháng 2, cũng như để có mặt bằng để triển khai thi công đồng loạt trên toàn tuyến ngay sau khi ký kết hợp đồng các gói thầu xây lắp.
Bắt khẩn cấp tài xế xe khách vụ tai nạn 6 người chết ở Sơn La

1 giờ trước Theo dòng thời sự

Công an tỉnh Sơn La khởi tố vụ án, bắt người bị giữ trong trường hợp khẩn cấp với tài xế ô tô khách gây tai nạn làm 6 người tử vong trên quốc lộ 6.
Độc lạ dịch vụ cho thuê gà đẻ tại Mỹ

2 giờ trước Chuyển động

Trang Free Press Journal cho biết trong bối cảnh giá trứng tăng vọt do cúm gia cầm khiến hàng nghìn con gà bị tiêu hủy, dịch vụ cho thuê gà đã ra đời để giúp người tiêu dùng tiết kiệm tiền mua trứng.
Ca sĩ sửa lời quốc ca Canada để phản đối ông Trump

3 giờ trước Chuyển động

Trong trận chung kết giải hockey 4 Nations Face-Off giữa hai đội tuyển Mỹ và Canada, ca sĩ Chantal Kreviazuk không ngần ngại sửa lời quốc ca Canada để phản ứng trước một phát ngôn gây căng thẳng của Tổng thống Mỹ Donald Trump.

Mới nhất

Tổng Bí thư Tô Lâm đi Metro số 1 TP.HCM

20 phút trước Theo dòng thời sự

Trưa 22.2, lãnh đạo Công ty TNHH MTV Đường sắt đô thị số 1 (HURC1) cho biết, đơn vị vừa vinh dự được tiếp đón Tổng Bí thư Tô Lâm cùng đoàn lãnh đạo cấp cao của Thủ tướng Lào, các lãnh đạo TP.HCM sáng nay tại tuyến metro số 1 Bến Thành - Suối Tiên.
Lễ hội chùa Tây Phương là Di sản văn hóa phi vật thể quốc gia

44 phút trước Văn hóa

Bộ Văn hóa, Thể thao và Du lịch mới đây đã quyết định đưa "Lễ hội truyền thống hội chùa Tây Phương" vào danh mục Di sản văn hóa phi vật thể quốc gia.
Thủ tướng yêu cầu khắc phục hậu quả vụ TNGT đặc biệt nghiêm trọng tại Sơn La

một giờ trước Theo dòng thời sự

Ngày 22.2, Thủ tướng Phạm Minh Chính đã có Công điện chỉ đạo khắc phục hậu quả vụ tai nạn giao thông (TNGT) đặc biệt nghiêm trọng tại huyện Yên Châu, tỉnh Sơn La.
Bài toán năng lượng để biến CO₂ thành nhiên liệu lỏng: Đáp án từ mặt trời

6 giờ trước Kiến thức - Học thuật

Trong nhiều thập kỷ qua, các nhà khoa học đã không ngừng tìm kiếm các phương pháp để giảm thiểu lượng khí carbon dioxide (CO₂) thải ra và biến chúng thành những thứ hữu ích một cách bền vững. Vấn đề khó nhất là năng lượng để chạy các phương pháp này.
Kỳ 2: Gặp Đặng Lê Nguyên Vũ ở Sài Gòn: Có gì trong đồ hình không chữ?

6 giờ trước Kinh tế - đầu tư - dự án

Vừa qua, Chủ tịch Tập đoàn Trung Nguyên Legend Đặng Lê Nguyên Vũ đã có cuộc gặp gỡ trao đổi với nhà báo Nguyên Hằng (Báo Thanh Niên). Trong cuộc trò chuyện kéo dài hơn 3 giờ đồng hồ, nhà báo Nguyên Hằng đã ghi chép lại những suy tư, trăn trở đầy tâm huyết của Chủ tịch Vũ về sứ mệnh dân tộc, khát vọng đất nước hùng cường trong bối cảnh mới. Nhằm mang đến cho đông đảo độc giả những thông tin, nhiều góc nhìn đầy đủ hơn về Chủ tịch Vũ, tòa soạn trân trọng giới thiệu bài báo ấy.