GPT-4 vượt trội hầu hết sinh viên ở kỳ thi trở thành luật sư, chuyên gia nói gì?

Theo nghiên cứu mới được công bố hôm 15.3, GPT-4 có thể vượt trội hầu hết sinh viên tốt nghiệp trường luật trong kỳ thi trở thành luật sư. Đó là kỳ thi kéo dài 2 ngày mệt mỏi mà nhiều người khao khát vượt qua để hành nghề luật sư ở Mỹ.

GPT-4, mô hình trí tuệ nhân tạo (AI) được công ty khởi nghiệp OpenAI nâng cấp và phát hành hôm 14.3, đã đạt 297 điểm trong bar exam. Đây là một thử nghiệm được thực hiện bởi hai giáo sư luật và hai nhân viên hãng công nghệ pháp lý Casetext.

Bar exam là kỳ thi cấp bằng luật sư được tổ chức tại Mỹ và một số quốc gia khác trên thế giới. Kỳ thi này thường được tổ chức sau khi sinh viên tốt nghiệp đại học và hoàn thành chương trình đào tạo luật sư tại trường luật.
Được coi là một trong những kỳ thi khó nhất tại Mỹ, bar exam đánh giá kiến thức và tư duy, bao gồm các bài luận và bài kiểm tra hiệu suất được thiết kế để mô phỏng công việc pháp lý cùng các câu hỏi trắc nghiệm. Thí sinh cần đạt điểm đủ cao để được cấp phép hành nghề luật sư và được thực hiện tại tiểu bang hoặc khu vực mà họ muốn hoạt động.

Các nhà nghiên cứu nhận thấy rằng điều đó đặt GPT-4 vào trường hợp giống khoảng 90% thí sinh thi thực tế và đủ để được hành nghề luật ở hầu hết bang của Mỹ.

Các tác giả nghiên cứu viết: “Các mô hình ngôn ngữ lớn có thể đáp ứng tiêu chuẩn áp dụng cho luật sư ở hầu hết khu vực pháp lý của Mỹ bằng cách giải quyết các nhiệm vụ phức tạp đòi hỏi kiến thức pháp lý sâu rộng, khả năng đọc hiểu và viết”.

Chưa đầy 4 tháng trước, hai trong số các nhà nghiên cứu đã kết luận rằng mô hình ngôn ngữ lớn trước đó của OpenAI, GPT-3.5 mà ChatGPT dựa vào để hoạt động, không đạt được điểm vượt qua bar exam, cho thấy công nghệ này đang cải thiện nhanh như thế nào.

GPT-4 đã trả lời đúng gần 76% số câu hỏi trắc nghiệm của bar exam, tăng từ khoảng 50% với GPT-3.5, vượt trội hơn 7% so với người làm bài thi.

Dù vậy, Hội nghị Giám khảo Luật sư Quốc gia Mỹ, nơi thiết kế phần trắc nghiệm, nói hôm 15.3 rằng các luật sư có những kỹ năng độc đáo sở hữu được thông qua giáo dục và kinh nghiệm mà "AI hiện không thể sánh bằng".

Đồng tác giả nghiên cứu, Daniel Martin Katz - giáo sư tại Đại học Luật Chicago-Kent, cho biết trong một cuộc phỏng vấn rằng ông ngạc nhiên nhất về khả năng của GPT-4 trong việc đưa ra các câu trả lời bài luận và bài kiểm tra hiệu suất mạch lạc, phần lớn có liên quan đến câu hỏi.

"Tôi từng nghe rất nhiều người nói: Chà, nó có thể làm được bài trắc nghiệm nhưng không bao giờ có thể làm được các bài luận", Daniel Martin Katz cho hay.

AI cũng đã thể hiện tốt trong các bài thi tiêu chuẩn hóa khác, bao gồm cả SAT và GRE, nhưng kỳ thi luật sư đã thu hút được nhiều sự chú ý hơn. OpenAI đã quảng cáo điểm đỗ bar exam của GPT-4 là 297 điểm khi công bố mô hình ngôn ngữ mới này hôm 14.3.

Bài thi chuẩn hóa được đưa ra theo một cách rất nhất quán, đồng nghĩa các câu hỏi trong bài thi đều giống nhau, thời gian dành cho mỗi người làm bài là như nhau và cách chấm điểm là giống nhau cho tất cả.
SAT là bài thi đánh giá năng lực chuẩn hóa được sử dụng rộng rãi cho xét tuyển đại học trong hệ thống giáo dục Mỹ.
GRE là một bài thi khảo thí theo tiêu chuẩn và điều kiện xét tuyển của các trường đại học ở Mỹ.

Gia sư luyện thi luật sư Sean Silverman cho rằng nhiều người chú ý đến bar exam do độ khó được công nhận rộng rãi của nó. Tỷ lệ vượt qua lần đầu ở kỳ thi cấp phép luật sư năm nay là 78% trong số những người dự thi đã học trường luật 3 năm.

Sean Silverman cho biết mọi người có thể ít ấn tượng hơn khi biết rằng AI có thể vượt qua bài kiểm tra được thiết kế cho học sinh trung học, như SAT, "chứ không phải là bài thi để trở thành luật sư".

gpt-4-vuot-troi-hau-het-sinh-vien-tot-nghiep-o-ky-thi-tro-thanh-luat-su.jpg — Các nhà nghiên cứu cho biết điểm thi bar exam cho thấyGPT-4 có thể theo kịp luật sư con người

Trong sự kiện công bố GPT-4 ngày 14.3, Sam Altman, Giám đốc điều hành OpenAI, cho biết mô hình ngôn ngữ mới được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu (deep learning).

GPT-4 có khả năng xử lý đa phương thức đầu vào, gồm cả hình ảnh, giúp người dùng tương tác với nhiều chế độ. Việc chấp nhận hình ảnh đầu vào và xuất ra văn bản là tính năng chưa có trước đây, được đánh giá giúp người dùng có thêm tùy chọn để sáng tạo.

Sam Altman cho biết GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Hơn nữa, OpenAI tuyên bố GPT-4 có thể lập trình bằng nhiều loại ngôn ngữ khác nhau, tạo kịch bản nội dung tùy theo yêu cầu, trả lời câu hỏi phức tạp cũng như tương tác với hình ảnh. Với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5, OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như một công cụ giảng dạy cho sinh viên.

Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. Về khả năng sáng tạo, OpenAI cho biết GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án. Ví dụ về những điều này gồm âm nhạc, kịch bản, viết kỹ thuật và thậm chí là “học phong cách viết của người dùng”.

GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 có thể nhận hình ảnh làm cơ sở để tương tác. Trong ví dụ trên trang web GPT-4, mô hình ngôn ngữ mới được cung cấp hình ảnh của một số nguyên liệu làm bánh và được hỏi có thể làm gì với chúng.

Ngoài ra, OpenAI cũng cho biết GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Theo đại diện OpenAI, công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn.

OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.

Song giống các phiên bản trước của GPT, OpenAI cho biết GPT-4 vẫn gặp vấn đề với “thành kiến xã hội, mơ hồ về một số sự kiện và câu hỏi thù địch”.

Nói cách khác, GPT-4 không hoàn hảo, nhưng OpenAI cho biết đây là tất cả những vấn đề mà công ty đang nỗ lực giải quyết.