GPT-4 hơn GPT-3.5 đến 12 điểm %, nhưng chuyên gia chỉ ra hạn chế của AI trong phán đoán.
Do công ty khởi nghiệp OpenAI (Mỹ) phát triển, GPT-4 là phiên bản mới nhất mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT hoạt động, ra mắt vào ngày 13.3.
Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo.
GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.
GPT-4 với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5 nên OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như công cụ giảng dạy sinh viên.
Sam Altman, Giám đốc điều hành OpenAI, cho biết GPT-4 được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu.
Theo Sam Altman, GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi tiêu chuẩn hóa cho việc đăng ký vào các đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.
GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư ở Mỹ, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.
Ngoài ra, OpenAI cũng cho biết GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn. OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.
Theo nghiên cứu mới đây của Đại học Toronto (Canada), GPT-4 đủ thông minh để vượt qua kỳ thi dạng hội đồng X quang.
Cụ thể hơn, GPT-4 đã trả lời đúng 81% trong số 150 câu hỏi trắc nghiệm ở kỳ thi. Thế nhưng, nghiên cứu được công bố trên Radiology, tạp chí của Hiệp hội X quang Bắc Mỹ (RSNA), cũng phát hiện ra các thiếu sót của GPT-4.
"Khi phân tích hình ảnh y khoa, một bác sĩ X quang thực hiện ba việc: Tìm kiếm những phát hiện, sử dụng suy luận nâng cao để hiểu ý nghĩa của những phát hiện này, sau đó truyền đạt cho bệnh nhân và các bác sĩ khác", Rajesh Bhayana nói với đài Fox News Digital. Bà là bác sĩ X quang và lãnh đạo bộ phận công nghệ tại Đại học Hình ảnh Y khoa Toronto thuộc Bệnh viện Đa khoa Toronto ở Canada.
"Hầu hết các nghiên cứu về AI trong X quang đều tập trung vào thị giác máy tính, nhưng các mô hình ngôn ngữ như GPT thực chất đang thực hiện bước hai và ba (suy luận nâng cao và các nhiệm vụ ngôn ngữ). Nghiên cứu của chúng tôi cung cấp cái nhìn sâu sắc về khả năng của GPT trong lĩnh vực X quang, làm nổi bật tiềm năng đáng kinh ngạc của các mô hình ngôn ngữ lớn, cùng những hạn chế hiện tại khiến nó không đáng tin cậy", Rajesh Bhayana chia sẻ thêm.
Những nhà nghiên cứu đã tạo ra các câu hỏi theo phong cách, nội dung và độ khó của kỳ thi Đại học Hoàng gia Canada và Hội đồng X quang Mỹ. Vì ChatGPT chưa chấp nhận hình ảnh nên các nhà nghiên cứu chỉ giới hạn ở những câu hỏi dựa trên văn bản.
Các câu hỏi được đặt ra cho hai phiên bản GPT khác nhau: GPT-3.5 và GPT-4.
Cải thiện rõ rệt trong suy luận nâng cao
Theo kết quả nghiên cứu, phiên bản GPT-3.5 đã trả lời đúng 69% câu hỏi (104 trên 150), gần đạt mức 70% theo yêu cầu của Đại học Hoàng gia Canada.
GPT-3.5 gặp khó khăn nhất với các câu hỏi liên quan đến suy luận nâng cao, chẳng hạn như mô tả các phát hiện hình ảnh.
GPT-4 trả lời đúng 81% (121 trên 150) câu hỏi tương tự, vượt quá ngưỡng 70%. Phiên bản mới của GPT làm tốt hơn nhiều trong việc trả lời các câu hỏi suy luận nâng cao.
Rajesh Bhayana cho biết: “Mục đích của nghiên cứu là để xem GPT hoạt động như thế nào trong lĩnh vực X quang – cả về suy luận nâng cao và kiến thức cơ bản. GPT-4 hoạt động rất tốt trong cả hai lĩnh vực này và thể hiện sự hiểu biết được cải thiện về ngữ cảnh của ngôn ngữ dành riêng cho X quang. Điều này rất quan trọng để cho phép các công cụ tiên tiến hơn mà các bác sĩ X quang có thể sử dụng trở nên hiệu quả hơn”.
Các nhà nghiên cứu đã rất ngạc nhiên trước sự cải thiện rõ rệt của GPT-4 về khả năng suy luận nâng cao so với GPT-3.5.
Rajesh Bhayana nói: “Những phát hiện của chúng tôi làm nổi bật tiềm năng ngày càng tăng của các mô hình ngôn ngữ lớn này trong X quang cũng như các lĩnh vực y học khác”.
Tiến sĩ Harvey Castro, chuyên khoa y học khẩn cấp được chứng nhận tại thành phố Dallas (bang Texas, Mỹ) và là diễn giả quốc gia về AI trong chăm sóc sức khỏe, không tham gia vào nghiên cứu nhưng đã xem xét các phát hiện.
Ông nói với Fox News Digital: "Bước nhảy vọt về hiệu suất từ GPT-3.5 lên GPT-4 có thể là nhờ tập dữ liệu đào tạo mở rộng hơn và sự nhấn mạnh vào việc học tăng cường từ con người. Khóa đào tạo mở rộng này cho phép GPT-4 diễn giải, hiểu và sử dụng kiến thức tích hợp sẵn hiệu quả hơn".
Học tăng cường từ con người đề cập đến việc sử dụng phản hồi và hướng dẫn từ con người để cải thiện hiệu suất của mô hình ngôn ngữ lớn.
Song theo Harvey Castro, để đạt điểm cao hơn trong bài kiểm tra tiêu chuẩn không nhất thiết đồng nghĩa với hiểu biết sâu sắc hơn về một chủ đề y tế như X quang.
Ông nói: “Điều đó cho thấy GPT-4 nhận dạng mô hình tốt hơn dựa trên lượng thông tin khổng lồ mà nó đã được huấn luyện”.
Tương lai của mô hình ngôn ngữ lớn trong chăm sóc sức khỏe
Nhiều chuyên gia công nghệ y tế, gồm cả Rajesh Bhayana, tin rằng các mô hình ngôn ngữ lớn như GPT-4 sẽ thay đổi cách con người tương tác với công nghệ nói chung và cụ thể hơn là trong y học.
"Chúng đã được tích hợp vào các công cụ tìm kiếm như Google, hồ sơ y tế điện tử như Epic và phần mềm chuyển giọng thành văn bản trong lĩnh vực y tế như Nuance. Thế nhưng có nhiều ứng dụng tiên tiến hơn của những công cụ này sẽ biến đổi việc chăm sóc sức khỏe hơn nữa", Rajesh Bhayana nói với Fox News Digital.
Trong tương lai, Rajesh Bhayana tin rằng những mô hình ngôn ngữ lớn này có thể trả lời chính xác các câu hỏi của bệnh nhân, giúp bác sĩ đưa ra chẩn đoán và hướng dẫn các quyết định điều trị.
Tập trung vào X quang, Rajesh Bhayana dự đoán rằng mô hình ngôn ngữ lớn có thể giúp nâng cao khả năng của các bác sĩ và giúp họ làm việc hiệu quả hơn.
Tuy nhiên, bà nhận xét: “Các mô hình ngôn ngữ lớn chưa đủ tin cậy để sử dụng cho thực hành lâm sàng, nhưng chúng tôi đang đi đúng hướng một cách nhanh chóng”.
Hạn chế của mô hình ngôn ngữ lớn trong y học
Có lẽ hạn chế lớn nhất của mô hình ngôn ngữ lớn trong X quang là không có khả năng giải thích dữ liệu hình ảnh, một khía cạnh quan trọng, Harvey Castro nói.
Rajesh Bhayana chỉ ra rằng các mô hình ngôn ngữ lớn như GPT cũng được biết đến với xu hướng "ảo giác", cung cấp thông tin không chính xác theo cách rất tự tin.
"Các mô hình chưa đủ tin cậy để sử dụng cho thực hành lâm sàng. Những ảo giác này giảm trong GPT-4 so với GPT-3.5, nhưng vẫn xảy ra quá thường xuyên để có thể sử dụng trong thực hành lâm sàng", Rajesh Bhayana nói.
Rajesh Bhayana nói thêm: “Các bác sĩ và bệnh nhân nên nhận thức được những điểm mạnh và hạn chế của các mô hình ngôn ngữ lớn này, gồm cả việc biết rằng chúng không thể được coi là nguồn thông tin duy nhất hiện nay”.
Harvey Castro cho rằng dù các mô hình ngôn ngữ lớn có thể có đủ kiến thức để vượt qua các bài kiểm tra, nhưng không thể sánh kịp bác sĩ khi xác định chẩn đoán của bệnh nhân và lập kế hoạch điều trị.
Ông nói: “Các kỳ thi tiêu chuẩn, gồm cả chẩn đoán hình ảnh, thường tập trung vào các trường hợp như trong giáo trình. Thế nhưng trong thực hành lâm sàng, bệnh nhân hiếm khi xuất hiện các triệu chứng như ở giáo trình".
Harvey Castro cho biết mỗi bệnh nhân có các triệu chứng, tiền sử và các yếu tố cá nhân riêng biệt có thể khác với các trường hợp "tiêu chuẩn".
"Sự phức tạp này thường đòi hỏi khả năng phán đoán và ra quyết định tinh tế. Đây là khả năng mà AI, gồm cả các mô hình tiên tiến như GPT-4, đang thiếu", ông nhận định.
Dù điểm số được cải thiện của GPT-4 là đầy hứa hẹn, Harvey Castro cho biết còn nhiều việc phải làm để đảm bảo rằng các công cụ AI chính xác, an toàn và có giá trị trong môi trường lâm sàng thực tế.