AI & Blockchain

GPT 5 ít bị ảo giác hơn các mô hình AI trước đó

Lê Hà • 08/08/2025 01:05

OpenAI tuyên bố GPT-5 là công nghệ tiên tiến nhất trong một số lĩnh vực, vượt trội một chút so với các mô hình AI của Anthropic, Google DeepMind và xAI.

Công ty cho biết GPT-5 cung cấp hiệu suất ở cấp độ tiên tiến trong lĩnh vực mã hóa. Altman nói mô hình này đặc biệt xuất sắc trong việc tạo ra toàn bộ ứng dụng phần mềm theo yêu cầu, được gọi là lập trình có tính chủ động

Trên SWE-bench Verified - một bài kiểm tra các tác vụ mã hóa thực tế được lấy từ GitHub - GPT-5 đạt 74,9% ngay lần thử đầu tiên. Điều này đồng nghĩa với việc GPT-5 vượt trội hơn hẳn so với mô hình Claude Opus 4.1 mới nhất của Anthropic (đạt 74,5%) và Gemini 2.5 Pro của Google DeepMind (đạt 59,6%).

Trong bài kiểm tra cuối cùng - một bài kiểm tra khó dùng để đánh giá khả năng của các mô hình AI trong các lĩnh vực toán học, nhân văn và khoa học tự nhiên - phiên bản GPT-5 Pro với khả năng lập luận nâng cao đạt được 42% khi sử dụng các công cụ hỗ trợ. Kết quả này hơi thấp hơn một chút so với thành tích 44,4% mà xAI đạt được với mô hình Grok 4 Heavy trong cùng bài kiểm

Trong GPQA Diamond - một bài kiểm tra các câu hỏi khoa học cấp độ tiến sĩ - GPT-5 Pro đạt 89,4% ngay lần thử đầu tiên, vượt trội hơn Claude Opus 4.1 đạt 80,9% và Grok 4 Heavy đạt 88,9%.

OpenAI cho biết GPT-5 tốt hơn trong việc trả lời các câu hỏi liên quan đến sức khỏe. Trong bài kiểm tra độ chính xác trong phản hồi của mô hình AI về các chủ đề chăm sóc sức khỏe, HealthBench Hard Hallucinations, OpenAI cho biết GPT-5 (có suy nghĩ) chỉ tạo ra ảo giác 1,6% thời gian. Con số này thấp hơn nhiều so với các mô hình GPT-4o và o3 trước đây của công ty, lần lượt đạt 12,9% và 15,8%.

Mặc dù chatbot AI không phải là chuyên gia y tế, hàng triệu người đang sử dụng chúng để được tư vấn sức khỏe. Để ứng phó với hiện tượng này, công ty cho biết GPT-5 chủ động hơn trong việc đánh dấu các vấn đề sức khỏe tiềm ẩn và giúp người dùng phân tích kết quả y tế.

Ngoài ra, OpenAI cho biết GPT-5 vượt trội hơn các mô hình AI khác ở những lĩnh vực mang tính chủ quan và khó đánh giá, như thiết kế sáng tạo và viết lách. Turley - Phó Chủ tịch ChatGPT của OpenAI, cũng nhận xét rằng GPT-5 phản hồi một cách tự nhiên hơn và thể hiện "khả năng thẩm mỹ tốt hơn" khi thực hiện các nhiệm vụ sáng tạo so với các mô hình AI khác.

Turley cho biết: “Cảm giác của mô hình này thực sự rất tốt”.

GPT-5 cũng chính xác hơn so với các mô hình trước đây của OpenAI và công ty cho biết nó giảm đáng kể hiện tượng ảo giác - tức là xu hướng bịa đặt hoặc đưa ra thông tin sai lệch của các mô hình AI - so với các mô hình thuộc dòng o. Trong khi đó, hiện tượng ảo giác dường như ngày càng nghiêm trọng hơn trong các mô hình suy luận AI mới nhất của OpenAI như o3 và trước đây công ty cũng thừa nhận họ chưa hiểu rõ nguyên nhân gây ra tình trạng này.

Trong các phản hồi cho lời nhắc ChatGPT, OpenAI phát hiện ra rằng GPT-5 (có suy nghĩ) bị ảo giác và phản hồi thông tin sai lệch 4,8% thời gian. Con số này giảm đáng kể so với o3 và GPT-4o, với tỷ lệ ảo giác lần lượt là 22% và 20,6% trong bài kiểm tra.

Trên chuẩn đo lường Tau-bench, một công cụ đánh giá khả năng thực hiện các nhiệm vụ mô phỏng trực tuyến của các mô hình AI, GPT-5 cho kết quả không đồng đều. Ở phần kiểm tra về khả năng điều hướng một trang web hàng không, GPT-5 đạt 63,5%, hơi thấp hơn so với mô hình O3 với 64,8%. Trong phần kiểm tra điều hướng một trang web bán lẻ, GPT-5 đạt được 81,1%, thấp hơn Claude Opus 4.1 với 82,4%.

OpenAI cũng cho biết GPT-5 an toàn hơn các phiên bản trước. Dù các mô hình AI suy luận trước đây đôi khi có xu hướng “âm mưu chống lại con người” hoặc nói dối để đạt được mục tiêu riêng, GPT-5 thể hiện tỷ lệ gian lận thấp hơn.

Alex Beutel, trưởng nhóm nghiên cứu an toàn tại OpenAI, cho biết việc giảm thiểu gian lận không chỉ nâng cao tính an toàn mà còn cải thiện trải nghiệm người dùng, giúp GPT-5 trở nên “minh bạch và trung thực hơn”, tạo sự tin cậy cho người dùng.

Beutel cũng nhấn mạnh GPT-5 có khả năng nhận diện tốt hơn giữa những đối tượng có ý định xấu muốn lợi dụng ChatGPT và những người dùng gửi các yêu cầu vô hại. Nhờ đó, GPT-5 có thể từ chối nhiều câu hỏi không an toàn hơn mà vẫn hạn chế việc từ chối các hỏi đáp lành mạnh, hữu ích cho người dùng.

Lê Hà