Giáo sư kinh tế kinh ngạc vì ChatGPT từ điểm D đạt điểm A ở bài kiểm tra chỉ sau 3 tháng

Giáo sư Bryan Caplan kinh ngạc trước sự tiến bộ của ChatGPT vì cải thiện điểm số từ D lên A trong bài kiểm tra kinh tế học của ông chỉ sau 3 tháng.

Bryan Caplan, giáo sư kinh tế tại Đại học George Mason (Mỹ), nói với trang Insider rằng phiên bản mới nhất của ChatGPT có thể khiến ông thua món đặt cược lớn nhất từng tham gia.

GPT-3.5 không hiểu lý thuyết cơ bản

Viết trong một bài đăng trên blog vào tháng 1, Bryan Caplan nói đã đặt ra các câu hỏi cho ChatGPT, lúc đó hoạt động dựa trên mô hình ngôn ngữ GPT-3.5, từ kỳ thi giữa kỳ mùa thu của mình.

Bryan Caplan nói các câu hỏi trong bài thi này nhằm mục đích kiểm tra sự hiểu biết của sinh viên về kinh tế học, thay vì yêu cầu họ thuộc lòng sách giáo khoa hoặc được xem như các bài tập về trí nhớ.

Phiên bản cũ của ChatGPT đã gặp vấn đề khi chỉ đạt điểm 31/100 trong bài kiểm tra, tương đương điểm D.

Bryan Caplan nói với Insider rằng ChatGPT không hiểu các khái niệm cơ bản, chẳng hạn nguyên tắc lợi thế so sánh và lợi thế tuyệt đối. Ông nói các câu trả lời của ChatGPT cũng mang tính chính trị hơn là kinh tế.

“ChatGPT đã làm rất tốt việc bắt chước một sinh viên kinh tế Đại học George Mason rất yếu”, Bryan Caplan viết trong bài đăng trên blog vào tháng 1 của mình.

Bryan Caplan không phải là học giả duy nhất thất vọng với ChatGPT. Dù ChatGPT vượt qua kỳ thi Trường Kinh doanh Wharton (Mỹ) vào tháng 1, giáo sư trường này cho biết chatbot của OpenAI mắc những lỗi đáng ngạc nhiên trong các phép tính đơn giản.

Cuộc đánh cược lớn

Bryan Caplan thích cá cược. Trước đây, ông đã đặt cược 23 món công khai và thắng tất cả. Các món cược với số tiền khiêm tốn khoảng 100 USD và thường liên quan đến các chủ đề kỹ thuật như dự đoán tỷ lệ thất nghiệp, chỉ số lạm phát.

Bryan Caplan cũng suýt thắng một vụ cá cược năm 2008 rằng không quốc gia thành viên nào sẽ rời Liên minh châu Âu (EU) trước năm 2020: Vương quốc Anh rời Liên minh châu Âu vào tháng 1.2020.

Bryan Caplan từng rất thất vọng về các câu trả lời của ChatGPT đến nỗi ông đã đánh cược rằng một mô hình trí tuệ nhân tạo (AI) sẽ không đạt điểm A trên 6/7 bài kiểm tra của ông trước năm 2029.

Thế nhưng khi GPT-4 được phát hành, Bryan Caplan sốc trước sự tiến bộ của nó. Nó đạt 73% trong cùng một bài kiểm tra giữa kỳ, tương đương với điểm A và nằm trong số những điểm cao nhất trong lớp của ông.

ChatGPT-4 đạt 73% trong bài kiểm tra kinh tế của Giáo sư Bryan Caplan

Hoạt động dựa trên mô hình ngôn ngữ GPT-4, bản nâng cấp của ChatGPT (ChatGPT-4 hiện có tính pí) đã khắc phục một số vấn đề ban đầu trong GPT-3.5. Theo tuyên bố của OpenAI, điều này bao gồm làm cho GPT có khả năng phản hồi chính xác hơn 40% và xử lý các chỉ dẫn tinh vi hơn.

Với Bryan Caplan, những cải tiến là rõ ràng. ChatGPT-4 trả lời rõ ràng các câu hỏi của ông, hiểu các nguyên tắc mà trước đây chatbot này gặp khó khăn. GPT-4 cũng đạt điểm tuyệt đối khi giải thích và đánh giá các khái niệm do các nhà kinh tế học như Paul Krugman đưa ra.

"Điều duy nhất tôi muốn nói là nó có vẻ tốt hơn rất nhiều", Bryan Caplan nói.

Bryan Caplan cho rằng dữ liệu đào tạo ChatGPT có thể đã chọn bài đăng trên blog trước đây của ông, nơi ông giải thích câu trả lời. Thế nhưng, các đồng nghiệp nói với Bryan Caplan rằng điều này rất khó xảy ra.

Bryan Caplan nói rằng đã đưa cho ChatGPT-4 những bài kiểm tra mới mà nó chưa từng thấy trước đó. Kết quả là ChatGPT-4 đạt được điểm tốt hơn cả với mức điểm 73% trước đó.

"Tôi đã rất tự mãn trong nhận định của mình và không còn tự mãn nữa", Bryan Caplan nói.

Bryan Caplan tự tin hơn rằng sẽ thắng cá cược liên quan đến AI lần tới. Ông có một vụ cá cược với Eliezer Yudkowsky, người có quan điểm bi quan về AI và từng tranh luận với Giám đốc điều hành OpenAI - Sam Altman rằng AI sẽ dẫn đến sự tận diệt của thế giới trước ngày 1.1.2030.

“Tôi sẵn sàng để tham gia vào nhiều hơn những vụ cá cược về AI liên quan đến sự tận diệt của thế giới, bởi tôi nghĩ những người này đã hoàn toàn mất trí”, Bryan Caplan cho hay. Điều này đồng nghĩa ông không tin AI dẫn đến sự tận diệt của thế giới.

Khó kiểm tra

Các chatbot AI khiến các giám khảo phải đau đầu. Các giáo sư nói với trang Insider rằng khó có thể chứng minh hành vi đạo văn với tài liệu từ ChatGPT vì không có bằng chứng cụ thể về hành vi về việc vi phạm quyền sở hữu trí tuệ.

Bryan Caplan nói rằng đang nghĩ đến việc loại bỏ bài tập về nhà được chấm điểm sau sự trỗi dậy của ChatGPT. Ông hy vọng thói quen thay đổi câu hỏi thường xuyên sẽ đủ để ngăn sinh viên tái sử dụng câu trả lời của ChatGPT trong một bài kiểm tra.

Nhiều cải tiến đáng giá của GPT-4

Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. Về khả năng sáng tạo, OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo. Ví dụ về những điều này gồm âm nhạc, kịch bản, viết kỹ thuật và thậm chí là “học phong cách viết của người dùng”.

GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 hiện cũng có thể nhận hình ảnh làm cơ sở để tương tác. Trong ví dụ trên trang web GPT-4, mô hình ngôn ngữ mới được cung cấp hình ảnh của một số nguyên liệu làm bánh và được hỏi có thể làm gì với chúng.

Theo OpenAI, công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn.

OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.

Sam Altman, Giám đốc điều hành OpenAI, cho biết mô hình ngôn ngữ mới được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu (deep learning).

GPT-4 có khả năng xử lý đa phương thức đầu vào, gồm cả hình ảnh, giúp người dùng tương tác với nhiều chế độ.

Sam Altman nói GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi chuẩn hóa cho việc đăng ký vào một số đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Hơn nữa, OpenAI tuyên bố GPT-4 có thể lập trình bằng nhiều loại ngôn ngữ khác nhau, tạo kịch bản nội dung tùy theo yêu cầu, trả lời câu hỏi phức tạp cũng như tương tác với hình ảnh. Với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5, OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như một công cụ giảng dạy cho sinh viên.