AI & Blockchain

GPT-5 dẫn đầu bảng xếp hạng LMArena, CEO OpenAI phản hồi trước ý kiến khen và chê

Sơn Vân • 09/08/2025 08:21

Nhiều tháng qua, Sam Altman liên tục quảng bá về những khả năng vượt trội của GPT-5, coi sự kiện ra mắt mô hình ngôn ngữ lớn mới nhất là cột mốc quan trọng với OpenAI. Song trong 1 ngày đầu sau khi trình làng, GPT-5 lại nhận được những đánh giá trái chiều.

Trong thông báo hôm 8.8, OpenAI cho biết GPT-5 giỏi hơn trong lập trình và suy luận các vấn đề phức tạp, đồng thời quảng bá mô hình ngôn ngữ lớn này đủ tiên tiến để trở thành chuyên gia ở trình độ tiến sĩ thuộc mọi lĩnh vực.

Một số người được tiếp cận sớm đã khen ngợi GPT-5, nhưng kèm theo những lưu ý.

Nhà phát triển Simon Willison thừa nhận khá hứng thú với phiên bản này, cho rằng GPT-5 "có năng lực" và thỉnh thoảng gây ấn tượng. Thế nhưng theo ông, GPT-5 không phải là một bước nhảy vọt so với phiên bản trước đó.

Simon Willison là nhà phát triển phần mềm và chuyên gia về cơ sở dữ liệu, nổi tiếng với việc đồng sáng lập framework web Django cho Python vào năm 2003 khi còn là sinh viên Đại học Cambridge (Anh). Framework web là bộ khung phần mềm gồm các thư viện, công cụ và cấu trúc sẵn có, giúp lập trình viên phát triển ứng dụng web nhanh hơn và dễ bảo trì hơn.

Python là ngôn ngữ lập trình bậc cao, thông dịch, cú pháp đơn giản và dễ đọc, được thiết kế để giúp lập trình viên viết mã nhanh, rõ ràng và dễ bảo trì. Ra đời vào năm 1991 và do Guido van Rossum phát triển, Python là một trong những ngôn ngữ lập trình phổ biến nhất thế giới.

GPT-5 dẫn đầu bảng xếp hạng LMArena, CEO OpenAI phản hồi trước ý kiến khen và chê-1 — Simon Willison là nhà phát triển phần mềm có tiếng - Ảnh: Internet

Hiện nay, Simon Willison chủ yếu làm việc trong lĩnh vực dữ liệu mở và công cụ phát triển. Một trong những dự án tiêu biểu gần đây của ông là Datasette, nền tảng mã nguồn mở cho phép xuất bản và khám phá dữ liệu dễ dàng.

Ngoài ra, Simon Willison thường xuyên viết blog chia sẻ kiến thức về lập trình, AI và dữ liệu, đồng thời là tiếng nói có ảnh hưởng trong cộng đồng nhà phát triển trên mạng xã hội X và Mastodon.

Trên nhiều nền tảng mạng xã hội, người dùng ChatGPT lại tỏ ra thất vọng vì GPT-5 vẫn bịa ra thông tin ảo và mắc lỗi ở những câu hỏi đơn giản về toán học lẫn chính tả.

Noah Giansiracusa, phó giáo sư toán học tại Đại học Bentley (Mỹ), cho biết ông cảm thấy đợt ra mắt GPT-5 “không mấy ấn tượng”.

“Dù có một số cải tiến, chúng nhỏ hơn nhiều so với kỳ vọng của tôi”, Noah Giansiracusa nói.

Một phần phản ứng tiêu cực có thể xuất phát từ sự bối rối về cơ chế hoạt động của GPT-5. Khác với các phiên bản trước, GPT-5 tự động chuyển đổi giữa các mô hình AI có độ phức tạp khác nhau tùy theo truy vấn, giúp OpenAI tối ưu hóa tài nguyên tính toán, nhưng đồng thời khiến người dùng không phải lúc nào cũng tương tác với phiên bản mạnh nhất của “cha đẻ ChatGPT”.

Các mô hình GPT của OpenAI, gồm cả GPT-5, chính là công nghệ làm nền tảng cho ChatGPT đình đám. OpenAI cho biết GPT-5 sẽ được cung cấp cho toàn bộ 700 triệu người dùng ChatGPT.

Ví dụ, khi được yêu cầu đếm số lần chữ “b” xuất hiện trong từ “blueberry”, GPT-5 ban đầu trả lời “ba” trong một bài kiểm tra. Khi được nhắc “hãy suy nghĩ kỹ hơn”, GPT-5 dường như đã kích hoạt mô hình suy luận tiên tiến và đưa ra câu trả lời đúng là “hai”.

"Sự cố khiến GPT-5 trông kém thông minh hơn hẳn"

Chiều tối 8.8 (giờ Việt Nam), Sam Altman phản hồi một số ý kiến và cho biết hệ thống đã gặp sự cố.

“Bắt đầu từ hôm nay GPT-5 sẽ thông minh hơn. Hôm qua, trình chuyển đổi mô hình AI tự động bị hỏng và ngừng hoạt động trong một khoảng thời gian, khiến GPT-5 trông kém thông minh hơn hẳn”, Giám đốc điều hành OpenAI viết.

GPT-5 dẫn đầu bảng xếp hạng LMArena, CEO OpenAI phản hồi trước ý kiến khen và chê — Sam Alman: Trình chuyển đổi mô hình AI tự động bị hỏng một thời gian hôm qua khiến GPT-5 trông kém thông minh hơn - Ảnh: Internet

Việc ra mắt GPT-5 có ý nghĩa rất lớn. OpenAI đang cố gắng duy trì vị thế dẫn đầu trước làn sóng cạnh tranh AI từ các đối thủ ở Mỹ và Trung Quốc. Công ty có trụ sở tại San Francisco (Mỹ) cũng tìm cách thuyết phục doanh nghiệp và người dùng cá nhân trả phí cho các dịch vụ cao cấp, nhằm bù đắp khoản chi khổng lồ cho nhân sự, chip và trung tâm dữ liệu phục vụ phát triển AI.

Sam Altman tin rằng khoản đầu tư hiện tại cho AI vẫn chưa đủ: “Chúng ta cần xây dựng nhiều cơ sở hạ tầng hơn trên toàn cầu để AI có thể được triển khai tại chỗ ở tất cả thị trường này”.

GPT-5 dẫn đầu nhiều hạng mục trên LMArena, chỉ kém Grok 4 một tiêu chuẩn

OpenAI đã khơi nào làn sóng AI tạo sinh gần ba năm trước với việc phát hành ChatGPT, ban đầu được vận hành bởi mô hình GPT-3.5. Kể từ đó, công ty đã phát hành một loạt mô hình AI ngày càng tiên tiến, gồm cả nhiều phiên bản mô phỏng quá trình suy luận của con người như o1, o3 và o4-mini.

Khi các mô hình AI ngày càng tiến bộ, việc đánh giá và so sánh dịch vụ trở nên khó khăn hơn. Tính đến trưa 8.8, GPT-5 đã vươn lên dẫn đầu nhiều hạng mục trong LMArena - bảng xếp hạng AI phổ biến dựa trên đánh giá của người dùng. Song ở một tiêu chuẩn khác là ARC-AGI-2, GPT-5 lại xếp sau phiên bản mới nhất Grok 4 do công ty khởi nghiệp xAI của Elon Musk phát triển.

ARC-AGI-2 là chuẩn đánh giá mô hình AI mới, hướng đến đo lường trực tiếp khả năng lý luận trừu tượng và thích ứng theo kiểu con người, yêu cầu AI không chỉ thông minh mà còn hoạt động hiệu quả, linh hoạt - những yếu tố cần thiết để tiến gần hơn đến AGI (AI tổng quát).

Chuyên gia khen, người dùng MXH Reddit chê

Nếu chưa có các đánh giá chắc chắn hơn, “cuộc chiến mô hình AI” đôi khi chỉ còn là cảm nhận cá nhân. Với 700 triệu người dùng ChatGPT mỗi tuần, chắc chắn sẽ có nhiều ý kiến trái ngược về cảm nhận khi dùng GPT-5. Hơn nữa, để đánh giá chính xác giá trị của mô hình AI mới trong công việc và cuộc sống cá nhân, người dùng cần nhiều thời gian hơn là chỉ một ngày.

Ethan Mollick, giáo sư thường xuyên thử nghiệm các mô hình AI, bày tỏ sự ngạc nhiên trước khả năng của GPT-5 trong nghiên cứu, tạo ra phản hồi sáng tạo và đơn giản hóa lập trình, ngay cả với người mới bắt đầu. “GPT-5 tự làm được nhiều thứ, thường là những thứ phi thường, đôi khi là các thứ kỳ lạ, đôi lúc là những thứ rất AI. Đó chính là điều khiến nó thú vị đến vậy”, giáo sư tại Trường Wharton thuộc Đại học Pennsylvania (Mỹ) viết trên blog.

Tuy nhiên, trên mạng xã hội Reddit, phản ứng lại khác hẳn. Trong một buổi Ask Me Anything (Hỏi gì đáp nấy) hôm 8.8 trên Reddit, Sam Altman đã nhận nhiều ý kiến phản đối từ người dùng vì họ không có quyền kiểm soát hoặc biết rõ mô hình AI nào đang trả lời câu hỏi của mình.

Doanh nhân 40 tuổi người Mỹ cho biết OpenAI sẽ thực hiện một số bước để giải quyết vấn đề này, gồm cả việc làm cho hệ thống “minh bạch hơn”.

Ở một thời điểm, Sam Altman trả lời câu hỏi của một người dùng Reddit bằng cách cho biết OpenAI đánh giá “chất lượng viết” của phiên bản GPT-5 tốt hơn GPT-4.5. Sau đó, ông hỏi: “Bạn thấy nó tệ hơn à?” và ngay lập tức, nhiều người dùng lần lượt trả lời là: “Đúng”.

Tính toán lúc kiểm thử

OpenAI đang nhấn mạnh sức mạnh phục vụ doanh nghiệp của GPT-5. Không chỉ hỗ trợ phát triển phần mềm, GPT-5 còn xuất sắc trong viết lách, trả lời các câu hỏi liên quan đến sức khỏe và tài chính, theo OpenAI.

Trong các buổi trình diễn rạng sáng 8.8, OpenAI đã cho thấy cách GPT-5 có thể được dùng để tạo ra toàn bộ phần mềm hoạt động hoàn chỉnh dựa trên các yêu cầu văn bản, thường được gọi là vibe coding (lập trình dựa trên cảm hứng với AI).

Ngay cả khi cải tiến đáng kể, mô hình ngôn ngữ lớn mới của OpenAI vẫn chưa đủ tiên tiến để thay thế hoàn toàn con người. Sam Altman nói rằng GPT-5 vẫn thiếu khả năng tự học - yếu tố then chốt để AI có thể đạt năng lực ngang bằng con người, hay AGI.

Ngoài việc thiếu dữ liệu mới chất lượng, một vấn đề khác là quá trình đào tạo các mô hình ngôn ngữ lớn có nhiều khả năng gặp phải lỗi do phần cứng gây ra vì hệ thống rất phức tạp. Các nhà nghiên cứu có thể không biết hiệu suất cuối cùng của mô hình ngôn ngữ lớn cho đến khi quá trình này kết thúc (có thể mất hàng tháng).

Vì lẽ đó, OpenAI khám phá ra một hướng tiếp cận khác để làm AI thông minh hơn gọi là “tính toán lúc kiểm thử”, cho phép dồn nhiều sức mạnh xử lý hơn để giải quyết từng nhiệm vụ khó như toán học hoặc tác vụ phức tạp đòi hỏi khả năng suy luận và ra quyết định nâng cao giống con người.

Tính toán lúc kiểm thử là đề cập đến việc sử dụng thêm sức mạnh điện toán để cải thiện hiệu suất của mô hình AI sau khi nó đã được huấn luyện xong. Thay vì chỉ dựa vào kiến thức đã học trong quá trình huấn luyện, tính toán lúc kiểm thử cho phép mô hình dành thêm thời gian và tài nguyên để "suy nghĩ" khi xử lý một yêu cầu. Điều này giúp mô hình giải quyết các vấn đề phức tạp, đòi hỏi nhiều bước tư duy logic, tốt hơn.

GPT-5 hoạt động như một “bộ định tuyến”. Nếu người dùng đưa ra một câu hỏi đặc biệt khó, GPT-5 sẽ sử dụng tính toán lúc kiểm thử để trả lời.

Đây là lần đầu tiên công chúng có quyền truy cập công nghệ tính toán lúc kiểm thử của OpenAI – điều mà Sam Altman cho là quan trọng với sứ mệnh xây dựng AI vì lợi ích của toàn nhân loại.

Sơn Vân