AI & Blockchain

Chuyên gia AI: GPT-5 không vượt trội đáng kể các mô hình Trung Quốc

Sơn Vân • 10/08/2025 07:00

Theo Zhang Linfeng - giáo sư ngành trí tuệ nhân tạo (AI) tại Đại học Giao thông Thượng Hải, GPT-5 không vượt trội đáng kể so với các mô hình của Trung Quốc.

GPT-5, mô hình AI chủ lực mới nhất của công ty khởi nghiệp OpenAI (Mỹ), đã nhận được những phản hồi trái chiều tại Trung Quốc, nơi một số nhà phê bình bày tỏ thất vọng trước việc hệ thống mới này thiếu những đột phá.

Tại sự kiện ra mắt trực tuyến rạng sáng 8.8 (giờ Việt Nam), OpenAI giới thiệu GPT-5 là “mô hình AI thông minh nhất, nhanh nhất, hữu ích nhất từ trước đến nay và là một bước tiến lớn hướng tới việc đặt trí tuệ vào trung tâm của mọi doanh nghiệp”.

GPT-5 có hiệu suất được cải thiện trong nhiều lĩnh vực, gồm lập trình, toán học, viết lách, y tế và nhận thức hình ảnh, cùng các khả năng khác. OpenAI mô tả đây là “một hệ thống thống nhất” với khả năng tư duy tích hợp, có khả năng tự động chuyển đổi giữa chế độ “tiêu chuẩn” và “tư duy sâu” dựa trên các yếu tố như nội dung hội thoại, loại nhiệm vụ và độ phức tạp của yêu cầu.

“GPT-5 giống một chuyên gia trình độ tiến sĩ trong bất kỳ lĩnh vực nào”, Sam Altman (Giám đốc điều hành OpenAI) nói tại buổi ra mắt.

Các mô hình GPT của OpenAI, gồm cả GPT-5, chính là công nghệ làm nền tảng cho ChatGPT đình đám. OpenAI cho biết GPT-5 sẽ được cung cấp cho toàn bộ 700 triệu người dùng ChatGPT.

Khác với các phiên bản trước, GPT-5 tự động chuyển đổi giữa các mô hình AI có độ phức tạp khác nhau tùy theo truy vấn, giúp OpenAI tối ưu hóa tài nguyên tính toán.

Tại Trung Quốc đại lục, nơi ChatGPT và các dịch vụ khác của OpenAI không chính thức khả dụng, giới chuyên gia tin rằng người dùng vẫn sẽ có đủ lựa chọn thay thế GPT-5 từ các mô hình AI trong nước.

“GPT-5 không vượt xa đáng kể so với các mô hình AI của Trung Quốc, vì vậy sẽ không gây áp lực lớn lên các nhà nghiên cứu và nhà phát triển trong nước”, Giáo sư Zhang Linfeng (Trương Lâm Phong) cho biết trong một bài đăng hôm 9.8 trên tài khoản trên WeChat trực thuộc tờ Nhật báo Giải phóng.

“GPT-5 không mang lại những đột phá mang tính cách mạng; thiếu các đặc điểm đáng nhớ”, ông nhận định thêm.

Zhang Linfeng là chuyên gia AI có tiếng ở Trung Quốc, từng nhận nhiều giải thưởng danh giá như Microsoft Scholar, Tài năng trẻ Thanh Hoa, Luân Nam Tường và Giải Vàng Khởi hành tại Đại học Thanh Hoa. Đây là một trong những trường đại học hàng đầu và danh giá nhất ở Trung Quốc.

Năm 2019, Zhang Linfeng từng đề xuất thuật toán tự chưng cất, được xem là một trong những công trình tiêu biểu trong lĩnh vực chưng cất kiến thức.

Hiện Zhang Linfeng phụ trách phòng thí nghiệm Điện toán Thông minh Hiệu quả và Chính xác (EPIC) của Đại học Giao thông Thượng Hải, nơi phát triển các mô hình AI giá cả phải chăng.

Chuyên gia AI GPT-5 không vượt trội đáng kể các mô hình Trung Quốc1 — Zhang Linfeng cho rằng GPT-5 không vượt trội đáng kể so với các mô hình AI của Trung Quốc - Ảnh: Internet

Theo Giáo sư Zhang Linfeng, tính năng tư duy của GPT-5 không phải là khái niệm mới và các công ty Trung Quốc, chẳng hạn gã khổng lồ thương mại điện tử Alibaba, đã triển khai điều tương tự trong các hệ thống AI của họ.

Hôm 22.7, Alibaba công bố phiên bản nâng cấp cho dòng mô hình ngôn ngữ lớn thế hệ thứ ba Qwen3, với một thành viên đạt điểm số cao hơn trong các bài kiểm tra toán học và lập trình so với GPT-4o-0327 của OpenAI và DeepSeek-V3-0324.

Mô hình mã nguồn mở mới là Qwen3-235B-A22B-Instruct-2507-FP8, đạt “những cải tiến đáng kể về năng lực tổng quát, gồm khả năng làm theo hướng dẫn, suy luận logic, hiểu văn bản, toán học, khoa học, lập trình và sử dụng công cụ”, theo Alibaba.

Qwen3-235B-A22B-Instruct-2507-FP8 vượt qua các đối thủ trong các bài kiểm tra nhất định, chẳng hạn American Invitational Mathematics Examination 2025, khi đạt 70,3 điểm. Để so sánh, DeepSeek-V3-0324 (ra mắt tháng 3) đạt 46,6 điểm, còn GPT-4o-0327 của OpenAI chỉ được 26,7 điểm.

American Invitational Mathematics Examination (AIME) là một kỳ thi toán học mời danh giá dành cho học sinh trung học và một số học sinh trung học cơ sở xuất sắc tại Mỹ. Đây là vòng thi thứ hai trong chuỗi các kỳ thi được tổ chức bởi Hiệp hội Toán học Mỹ nhằm tuyển chọn đội tuyển đại diện cho nước này tham gia Olympic Toán học Quốc tế (IMO).

Về khả năng lập trình, Qwen3-235B-A22B-Instruct-2507-FP8 đạt 87,9 điểm theo chuẩn đánh giá MultiPL-E, cao hơn một chút so với 82,2 điểm của DeepSeek-V3-0324 và 82,7 điểm của GPT-4o-0327. Tuy nhiên, mô hình Qwen3 mới từ Alibaba vẫn thua Claude Opus 4 Non-thinking của Anthropic (đạt 88,5 điểm).

Qwen3-235B-A22B-Instruct-2507-FP8 chỉ đưa ra câu trả lời trực tiếp mà không trình bày các bước suy luận (hay chuỗi tư duy) như các mô hình AI khác. Dù vậy, độ dài nội dung mà Qwen3-235B-A22B-Instruct-2507-FP8 xử lý được đã tăng gấp 8 lần, đạt 256.000 token. Điều này giúp mô hình Qwen3 mới của Alibaba xử lý các đoạn văn bản rất dài chỉ trong một cuộc hội thoại.

Trong AI, token là đơn vị nhỏ nhất của văn bản, như một từ, dấu câu hoặc thậm chí là một phần của từ (tùy theo cách xử lý).

Sự cạnh tranh khốc liệt trên thị trường mô hình ngôn ngữ lớn

Đánh giá từ Zhang Linfeng phản ánh sự cạnh tranh khốc liệt trên thị trường mô hình ngôn ngữ lớn toàn cầu, khi OpenAI tìm cách tạo dấu ấn lớn với mô hình AI chủ lực mới nhất GPT-5.

Các mô hình AI mã nguồn mở từ công ty khởi nghiệp Trung Quốc như DeepSeek và MoonshotAI, cùng sản phẩm từ hãng công nghệ lớn trong nước như Alibaba, Baidu, Tencent, đã được áp dụng rộng rãi hơn nhờ chi phí thấp và tính năng sáng tạo.

Hôm 28.7, hãng thông tấn Tân Hoa Xã đưa tin Trung Quốc có 1.509 mô hình AI, chiếm hơn 40% toàn cầu, theo dữ liệu từ Hội nghị Trí tuệ Nhân tạo Thế giới (WAIC) năm nay.

Dù vậy, Zhang Linfeng vẫn đánh giá cao OpenAI ở các điểm như GPT-5 đã giảm tình trạng “ảo giác” (đưa ra thông tin sai giống như thật), cải thiện khả năng lập trình.

Chuyên gia AI GPT-5 không vượt trội đáng kể các mô hình Trung Quốc — Sự kiện OpenAI ra mắt GPT-5 rất được chú ý ở Trung Quốc - Ảnh: Shutterstock

Cộng đồng công nghệ Trung Quốc đại lục cũng dành sự quan tâm lớn đến sự kiện OpenAI ra mắt GPT-5. Trên nền tảng hỏi đáp Zhihu, một cuộc thảo luận về GPT-5 đã thu hút hơn 3,2 triệu lượt xem, với một số người dùng nhận xét tích cực về những cải tiến của mô hình AI này.

Theo OpenAI, GPT-5 thông minh hơn rất nhiều trên mọi phương diện, thể hiện qua hiệu suất trên các bộ đánh giá học thuật và đánh giá bởi con người, đặc biệt là trong toán học, lập trình, nhận thức thị giác và y tế. Mô hình AI mới này thiết lập tiêu chuẩn mới ở các lĩnh vực: Toán học (94,6% trên AIME 2025 mà không dùng công cụ hỗ trợ bên ngoài), lập trình thực tế (74,9% trên SWE-bench Verified, 88% trên Aider Polyglot), hiểu đa phương thức (84,2% trên MMMU) và y tế (46,2% trên HealthBench Hard).

GPT-5 vượt trội trên nhiều bộ đánh giá đa phương thức, gồm suy luận về hình ảnh, video, không gian và khoa học. Khả năng đa phương thức mạnh hơn của GPT-5 đồng nghĩa với việc ChatGPT có thể suy luận chính xác hơn trên hình ảnh và các đầu vào phi văn bản khác - dù đó là diễn giải một biểu đồ, tóm tắt ảnh chụp một bài thuyết trình hay trả lời câu hỏi về một sơ đồ.

Ngoài ra, GPT-5 cũng là mô hình có hiệu suất tốt nhất của OpenAI trên bộ đánh giá nội bộ, đo lường khả năng thực hiện các công việc tri thức phức tạp, có giá trị kinh tế. Ở chế độ suy luận, GPT-5 đạt kết quả tương đương hoặc vượt chuyên gia trong khoảng một nửa số trường hợp, đồng thời vượt trội so với o3 và ChatGPT Agent ở các nhiệm vụ thuộc hơn 40 ngành nghề, gồm cả luật, hậu cần, bán hàng và kỹ thuật.

Điều đáng nói là GPT-5 khai thác được nhiều giá trị hơn dù dành ít thời gian suy luận hơn. Trong các bài đánh giá của OpenAI, GPT-5 (ở chế độ suy luận) đạt hiệu suất tốt hơn o3 với lượng token đầu ra ít hơn 50-80% trên nhiều năng lực, gồm suy luận bằng hình ảnh, viết mã có tính chủ động và giải quyết các bài toán khoa học ở trình độ sau đại học.

Cuối cùng, GPT-5 ít gây ảo giác (trả lời sai giống như thật) hơn đáng kể so với các mô hình trước đây của OpenAI. Khi bật tìm kiếm web trên các lời nhắc đã được ẩn danh, đại diện cho lưu lượng truy cập thực tế vào ChatGPT, câu trả lời của GPT-5 ít có khả năng chứa lỗi thông tin hơn khoảng 45% so với GPT-4o. Ở chế độ suy luận, câu trả lời của GPT-5 ít chứa lỗi thông tin hơn khoảng 80% so với o3.

Song ngay cả khi cải tiến đáng kể, GPT-5 vẫn chưa đủ tiên tiến để thay thế hoàn toàn con người. Sam Altman nói rằng GPT-5 vẫn thiếu khả năng tự học - yếu tố then chốt để AI có thể đạt năng lực ngang bằng con người, hay AI tổng quát (AGI).

Hiện GPT-5 là tùy chọn mặc định trên ChatGPT, áp dụng cho cả gói miễn phí và trả phí.

Microsoft, nhà đầu tư lớn vào OpenAI (13,75 tỉ USD), hôm 8.8 cũng công bố đang tích hợp GPT-5 vào nhiều sản phẩm khác nhau. Ví dụ, chế độ thông minh của GPT-5 trong Copilot giúp người dùng tìm ra giải pháp tốt nhất cho câu hỏi; các nhà phát triển trên GitHub Copilot và Visual Studio Code có thể viết, kiểm thử và triển khai mã bằng GPT-5.

GitHub Copilot là trợ lý lập trình tích hợp AI do GitHub (thuộc Microsoft) phát triển, sử dụng mô hình ngôn ngữ của OpenAI để gợi ý và viết mã tự động ngay trong trình soạn thảo.

Visual Studio Code là trình soạn thảo mã nguồn miễn phí, đa nền tảng do Microsoft phát triển, hỗ trợ lập trình trên Windows, macOS và Linux.