Đột phá

GPT-5.2 vượt Gemini 3.0 Pro và Claude Opus 4.5 ở phần lớn bài kiểm tra

Sơn Vân • 12/12/2025 11:40

OpenAI vừa phát hành GPT-5.2, khẳng định đây là dòng mô hình AI mạnh mẽ nhất đến nay cho công việc tri thức chuyên nghiệp.

“Chúng tôi thiết kế GPT-5.2 nhằm tạo ra nhiều giá trị kinh tế hơn cho người dùng. Mô hình này giỏi hơn trong việc tạo bảng tính, xây dựng bài thuyết trình, viết mã, phân tích hình ảnh, hiểu văn bản dài, sử dụng công cụ và xử lý các dự án phức tạp gồm nhiều bước”, OpenAI thông báo.

Trong bài đánh giá hiệu năng GDPval, OpenAI cho biết GPT-5.2 có thể vượt qua “các chuyên gia trong ngành ở những nhiệm vụ công việc tri thức được mô tả rõ ràng, trải rộng trên 44 lĩnh vực nghề nghiệp”.

“GPT-5.2 Thinking tạo ra kết quả cho các nhiệm vụ GDPval với tốc độ nhanh hơn 11 lần và chi phí thấp hơn dưới 1% so với các chuyên gia. Điều này cho thấy rằng, khi có sự giám sát của con người, GPT-5.2 có thể hỗ trợ đáng kể cho công việc chuyên môn”, công ty khởi nghiệp AI số 1 thế giới thông báo.

Ngoài ra, OpenAI tiết lộ rằng trong bài kiểm tra nội bộ dành cho các tác vụ lập mô hình bảng tính của chuyên viên phân tích ngân hàng đầu tư cấp dưới, “chẳng hạn xây dựng mô hình 3 báo cáo cho một công ty Fortune 500 với định dạng và trích dẫn chuẩn, hoặc dựng mô hình LBO cho một thương vụ tư nhân hóa”, điểm số của GPT-5.2 cao hơn 9,3% mỗi tác vụ so với GPT-5.1, tăng từ trung bình 59,1% lên 68,4%. Thông tin này chắc chắn sẽ thu hút sự chú ý của các ngân hàng.

Fortune 500 là top 500 doanh nghiệp có doanh thu cao nhất nước Mỹ, bao gồm cả tập đoàn công nghệ, năng lượng, bán lẻ, tài chính, ô tô…

LBO (Leveraged Buyout) là mô hình tài chính dùng để phân tích và định giá một thương vụ thâu tóm bằng đòn bẩy. Nói đơn giản, đây là mô hình giúp trả lời câu hỏi: Nếu mua lại một công ty bằng lượng lớn tiền vay mượn, thương vụ có sinh lời hay không?

OpenAI cũng nhấn mạnh về cải tiến của GPT-5.2 trong khả năng lập trình mang tính chủ động (AI có thể tự lên kế hoạch, tự chia nhỏ nhiệm vụ và tự viết mã để hoàn thành mục tiêu).

Về lập trình, GPT-5.2 Thinking thiết lập mức hiệu năng mới ở 55,6% trên SWE-Bench Pro, bộ đánh giá khắt khe về kỹ thuật phần mềm trong môi trường thực tế.

Jeff Wang, Giám đốc điều hành Windsurf, nhận xét: “GPT-5.2 là bước nhảy lớn nhất với các mô hình GPT trong lập trình theo hướng chủ động kể từ GPT-5, và là mô hình lập trình dẫn đầu trong tầm giá của nó. Việc chỉ tăng số phiên bản không phản ánh hết mức độ cải thiện về trí tuệ. Chúng tôi rất háo hức đưa GPT-5.2 trở thành mặc định trên Windsurf và nhiều tác vụ cốt lõi của Devin (hệ thống AI kỹ sư phần mềm tự động)”.

Bên cạnh đó, GPT-5.2 Thinking bị ảo giác (đưa ra câu trả lời sai y như thật) hơn GPT-5.1 Thinking. Với người dùng chuyên nghiệp, điều này đồng nghĩa với việc ít sai sót hơn khi dùng GPT-5.2 Thinking để nghiên cứu, viết lách, phân tích và hỗ trợ ra quyết định, giúp mô hình đáng tin cậy hơn cho công việc tri thức hằng ngày.

Theo OpenAI, GPT-5.2 Thinking là mô hình thị giác mạnh nhất của công ty cho đến nay, giảm khoảng một nửa tỷ lệ lỗi trong suy luận biểu đồ và hiểu giao diện phần mềm. Với người dùng chuyên nghiệp, GPT-5.2 Thinking diễn giải chính xác hơn bảng điều khiển (dashboard), ảnh chụp sản phẩm, sơ đồ kỹ thuật và báo cáo trực quan, hữu ích trong các quy trình tài chính, vận hành, kỹ thuật, thiết kế và hỗ trợ khách hàng, nơi thông tin hình ảnh đóng vai trò chủ đạo.

“Ngay cả khi chưa thể làm những việc mới như xuất ra file hoàn chỉnh và được định dạng đẹp, GPT-5.2 vẫn mang lại cảm giác như bản nâng cấp lớn nhất trong thời gian dài. Rất muốn nghe ý kiến của mọi người!”, Sam Altman, Giám đốc điều hành OpenAI, viết trên mạng xã hội X hôm 12.12.

Theo OpenAI, GPT-5.2 là dòng mô hình AI mạnh mẽ nhất từ trước đến nay dành cho công việc tri thức chuyên nghiệp

OpenAI cho biết sẽ bắt đầu triển khai GPT-5.2 từ hôm nay (12.12) cho người dùng ChatGPT trả phí. Người dùng trả phí sẽ tiếp tục có quyền truy cập GPT-5.1 trong ba tháng trước khi mô hình này chính thức bị ngừng hỗ trợ.

“Chúng tôi triển khai GPT-5.2 dần dần để giữ cho ChatGPT hoạt động mượt mà và ổn định nhất có thể”, công ty cho hay.

“Tình trạng báo động đỏ không phải hiếm gặp”

Fidji Simo, Giám đốc điều hành mảng Ứng dụng của OpenAI, tiết lộ sẽ có nhiều thay đổi hơn trong năm 2026, khi công ty triển khai xác minh độ tuổi trên ChatGPT. Bà nói “chế độ người lớn” cho ChatGPT sẽ ra mắt trong quý 1/2026.

Việc ra mắt GPT-5.2 diễn ra chỉ hơn một tuần sau khi Sam Altman tuyên bố trạng thái “báo động đỏ” trong một tin nhắn nội bộ gửi nhân viên, nhằm huy động thêm nguồn lực cho ChatGPT trước sự cạnh tranh ngày càng dữ dội từ Google và các công ty khác.

“Tình trạng báo động đỏ không phải hiếm gặp”, Fidji Simo chia sẻ trong một cuộc phỏng vấn trên kênh TBPN và nhắc rằng người xem có thể “tự đánh giá” kết quả của lời kêu gọi đó.

Fidji Simo nói bà rất tự hào về những tiến bộ của GPT-5.2, dù phần lớn quá trình phát triển mô hình AI mới này diễn ra trước thời điểm “báo động đỏ”.

"Nhìn chung, GPT-5.2 mang đến những cải tiến đáng kể về năng lực trí tuệ tổng quát, khả năng xử lý ngữ cảnh dài, tác tử sử dụng công cụ và thị giác máy tính, giúp mô hình thực thi tốt hơn các nhiệm vụ phức tạp trong thế giới thực từ đầu đến cuối so với mọi phiên bản trước đó", OpenAI tuyên bố.

GPT-5.2 vượt Gemini 3.0 Pro ở 7/8 bài kiểm tra

Trên mạng xã hội X, OpenAI đăng ảnh cho thấy GPT-5.2 vượt GPT-5.1 và Claude Opus 4.5 của Anthropic trên 8 bài kiểm tra khác nhau. Cụ thể gồm:

SWE-Bench Pro: Đánh giá khả năng sửa lỗi và hiểu mã trong các dự án phần mềm thực tế.

GPQA Diamond: Câu hỏi khoa học nâng cao, không cho phép dùng công cụ.

CharXiv Reasoning: Phân tích biểu đồ, hình minh họa khoa học.

FrontierMath: Toán học nâng cao nhiều cấp độ khó.

AIME 2025: Bài thi toán cạnh tranh (giống Olympic).

ARC-AGI-1 và ARC-AGI-2: Bài kiểm tra về tư duy trừu tượng và suy luận logic.

GDPval: Bộ đánh giá đo lường các nhiệm vụ công việc tri thức được mô tả rõ ràng trên 44 ngành nghề.

Nếu so với Gemini 3 Pro, GPT-5.2 giành chiến thắng 7/8 bài kiểm tra, trừ CharXiv Reasoning.

GPT-5.2 hơn Gemini 3.0 Pro và Claude Opus 4.5 ở phần lớn bài kiểm tra

Trước khi GPT-5.2 trình làng, nhiều người trong giới công nghệ nhận định Google đang đuổi kịp và thậm chí vượt OpenAI trong cuộc đua AI, với việc phát hành Gemini 3 hồi tháng 11 gây được nhiều tiếng vang.

Thế nhưng, Sam Altman nói trong cuộc phỏng vấn với kênh CNBC hôm 11.12: “Gemini 3 gây ít ảnh hưởng đến các chỉ số của chúng tôi hơn so với lo ngại ban đầu”.

Thông báo phát hành GPT-5.2 xuất hiện chỉ vài giờ sau khi OpenAI đạt thỏa thuận lớn với Disney, nhận khoản đầu tư 1 tỉ USD và quyền truy cập vào kho tài sản trí tuệ khổng lồ của tập đoàn giải trí này.

Disney sẽ cho phép OpenAI sử dụng các nhân vật từ các thương hiệu Star Wars, Pixar, Marvel trong trình tạo video AI Sora của mình.

“10 năm qua thật tuyệt vời. OpenAI là trải nghiệm đặc biệt hơn bất cứ điều gì tôi từng tưởng tượng”, Sam Altman viết trên X hôm 12.12.