Hotline quảng cáo: 076 4575985 Hotline nội dung: 0934.999945

GPT-4 vượt qua kỳ thi hội đồng X quang: Tiềm năng và hạn chế của mô hình AI trong y học

Sơn Vân | 25/05/2023, 17:03

GPT-4 hơn GPT-3.5 đến 12 điểm %, nhưng chuyên gia chỉ ra hạn chế của AI trong phán đoán.

Do công ty khởi nghiệp OpenAI (Mỹ) phát triển, GPT-4 là phiên bản mới nhất mô hình ngôn ngữ lớn làm nền tảng cho ChatGPT hoạt động, ra mắt vào ngày 13.3.

Theo OpenAI, GPT-4 tiên tiến hơn trong ba lĩnh vực chính: Tính sáng tạo, đầu vào trực quan và ngữ cảnh dài hơn. OpenAI nói GPT-4 tốt hơn nhiều trong cả việc tạo và cộng tác với người dùng trong các dự án sáng tạo.

GPT-4 hiện có thể xử lý tối đa 25.000 từ văn bản từ người dùng. Bạn thậm chí có thể gửi cho GPT-4 một liên kết web và yêu cầu nó tương tác với văn bản từ trang đó. OpenAI cho biết điều này có thể hữu ích cho việc tạo nội dung dài cũng như “các cuộc hội thoại mở rộng”.

GPT-4 với khả năng tạo văn bản nhiều hơn 8 lần so với GPT-3.5 nên OpenAI cho biết mô hình ngôn ngữ mới có thể được sử dụng như công cụ giảng dạy sinh viên.

Sam Altman, Giám đốc điều hành OpenAI, cho biết GPT-4 được cải tiến theo hướng sáng tạo hơn và ít thiên vị hơn so với bản trước đó. Ông nhấn mạnh đây là công nghệ AI tiên tiến chưa từng có, được đào tạo bằng cách sử dụng phản hồi của con người kết hợp công nghệ học sâu.

Theo Sam Altman, GPT-4 có hàng loạt khả năng mà các hệ thống AI hiện chưa thể đạt được. Cụ thể hơn, GPT-4 có thể đạt 1.410 điểm trong kỳ thi SAT - một trong những kỳ thi tiêu chuẩn hóa cho việc đăng ký vào các đại học tại Mỹ; đạt 4 hoặc 5 trong thang điểm 5 của các kỳ thi nâng cao (AP) ở các bộ môn Lịch sử Nghệ thuật, Sinh học, Giải tích và Hóa học - số điểm đủ cao để nhận được tín chỉ đại học.

GPT-4 đã đánh bại 90% số người tham gia để vượt qua kỳ thi sát hạch trở thành luật sư ở Mỹ, vượt 99% học sinh thi Olympic Sinh học. GPT-4 cũng đạt điểm cao nhất trong ít nhất 34 bài kiểm tra khác nhau trong các lĩnh vực như kinh tế vĩ mô, viết bài, Toán học hay thậm chí nội dung về nghiên cứu rượu vang.

Ngoài ra, OpenAI cũng cho biết GPT-4 sử dụng an toàn hơn đáng kể so với thế hệ trước. Công ty đã dành 6 tháng để tinh chỉnh GPT-4 theo hướng an toàn và phù hợp hơn. OpenAI cho biết GPT-4 được đào tạo với phản hồi của con người để đạt được những bước tiến này, đồng thời tuyên bố đã làm việc với “hơn 50 chuyên gia để có phản hồi sớm trong các lĩnh vực bao gồm an toàn và bảo mật AI”.

Theo nghiên cứu mới đây của Đại học Toronto (Canada), GPT-4 đủ thông minh để vượt qua kỳ thi dạng hội đồng X quang.

Cụ thể hơn, GPT-4 đã trả lời đúng 81% trong số 150 câu hỏi trắc nghiệm ở kỳ thi. Thế nhưng, nghiên cứu được công bố trên Radiology, tạp chí của Hiệp hội X quang Bắc Mỹ (RSNA), cũng phát hiện ra các thiếu sót của GPT-4.

"Khi phân tích hình ảnh y khoa, một bác sĩ X quang thực hiện ba việc: Tìm kiếm những phát hiện, sử dụng suy luận nâng cao để hiểu ý nghĩa của những phát hiện này, sau đó truyền đạt cho bệnh nhân và các bác sĩ khác", Rajesh Bhayana nói với đài Fox News Digital. Bà là bác sĩ X quang và lãnh đạo bộ phận công nghệ tại Đại học Hình ảnh Y khoa Toronto thuộc Bệnh viện Đa khoa Toronto ở Canada.

"Hầu hết các nghiên cứu về AI trong X quang đều tập trung vào thị giác máy tính, nhưng các mô hình ngôn ngữ như GPT thực chất đang thực hiện bước hai và ba (suy luận nâng cao và các nhiệm vụ ngôn ngữ). Nghiên cứu của chúng tôi cung cấp cái nhìn sâu sắc về khả năng của GPT trong lĩnh vực X quang, làm nổi bật tiềm năng đáng kinh ngạc của các mô hình ngôn ngữ lớn, cùng những hạn chế hiện tại khiến nó không đáng tin cậy", Rajesh Bhayana chia sẻ thêm.

Những nhà nghiên cứu đã tạo ra các câu hỏi theo phong cách, nội dung và độ khó của kỳ thi Đại học Hoàng gia Canada và Hội đồng X quang Mỹ. Vì ChatGPT chưa chấp nhận hình ảnh nên các nhà nghiên cứu chỉ giới hạn ở những câu hỏi dựa trên văn bản.

Các câu hỏi được đặt ra cho hai phiên bản GPT khác nhau: GPT-3.5 và GPT-4.

gpt-4-vuot-qua-ky-thi-hoi-dong-x-quang(1).jpg — Phiên bản mới nhất của GPT đủ thông minh để vượt qua kỳ thi kiểu hội đồng chụp X quang - Ảnh: iStock

Cải thiện rõ rệt trong suy luận nâng cao

Theo kết quả nghiên cứu, phiên bản GPT-3.5 đã trả lời đúng 69% câu hỏi (104 trên 150), gần đạt mức 70% theo yêu cầu của Đại học Hoàng gia Canada.

GPT-3.5 gặp khó khăn nhất với các câu hỏi liên quan đến suy luận nâng cao, chẳng hạn như mô tả các phát hiện hình ảnh.

GPT-4 trả lời đúng 81% (121 trên 150) câu hỏi tương tự, vượt quá ngưỡng 70%. Phiên bản mới của GPT làm tốt hơn nhiều trong việc trả lời các câu hỏi suy luận nâng cao.

Rajesh Bhayana cho biết: “Mục đích của nghiên cứu là để xem GPT hoạt động như thế nào trong lĩnh vực X quang – cả về suy luận nâng cao và kiến thức cơ bản. GPT-4 hoạt động rất tốt trong cả hai lĩnh vực này và thể hiện sự hiểu biết được cải thiện về ngữ cảnh của ngôn ngữ dành riêng cho X quang. Điều này rất quan trọng để cho phép các công cụ tiên tiến hơn mà các bác sĩ X quang có thể sử dụng trở nên hiệu quả hơn”.

Các nhà nghiên cứu đã rất ngạc nhiên trước sự cải thiện rõ rệt của GPT-4 về khả năng suy luận nâng cao so với GPT-3.5.

Rajesh Bhayana nói: “Những phát hiện của chúng tôi làm nổi bật tiềm năng ngày càng tăng của các mô hình ngôn ngữ lớn này trong X quang cũng như các lĩnh vực y học khác”.

Tiến sĩ Harvey Castro, chuyên khoa y học khẩn cấp được chứng nhận tại thành phố Dallas (bang Texas, Mỹ) và là diễn giả quốc gia về AI trong chăm sóc sức khỏe, không tham gia vào nghiên cứu nhưng đã xem xét các phát hiện.

Ông nói với Fox News Digital: "Bước nhảy vọt về hiệu suất từ GPT-3.5 lên GPT-4 có thể là nhờ tập dữ liệu đào tạo mở rộng hơn và sự nhấn mạnh vào việc học tăng cường từ con người. Khóa đào tạo mở rộng này cho phép GPT-4 diễn giải, hiểu và sử dụng kiến thức tích hợp sẵn hiệu quả hơn".

Học tăng cường từ con người đề cập đến việc sử dụng phản hồi và hướng dẫn từ con người để cải thiện hiệu suất của mô hình ngôn ngữ lớn.

Song theo Harvey Castro, để đạt điểm cao hơn trong bài kiểm tra tiêu chuẩn không nhất thiết đồng nghĩa với hiểu biết sâu sắc hơn về một chủ đề y tế như X quang.

Ông nói: “Điều đó cho thấy GPT-4 nhận dạng mô hình tốt hơn dựa trên lượng thông tin khổng lồ mà nó đã được huấn luyện”.

Tác giả chính của nghiên cứu mới cho biết: “Những phát hiện của chúng tôi làm nổi bật tiềm năng của các mô hình ngôn ngữ lớn trong X quang cũng như trong các lĩnh vực y học khác” - Ảnh: Getty Images

Tương lai của mô hình ngôn ngữ lớn trong chăm sóc sức khỏe

Nhiều chuyên gia công nghệ y tế, gồm cả Rajesh Bhayana, tin rằng các mô hình ngôn ngữ lớn như GPT-4 sẽ thay đổi cách con người tương tác với công nghệ nói chung và cụ thể hơn là trong y học.

"Chúng đã được tích hợp vào các công cụ tìm kiếm như Google, hồ sơ y tế điện tử như Epic và phần mềm chuyển giọng thành văn bản trong lĩnh vực y tế như Nuance. Thế nhưng có nhiều ứng dụng tiên tiến hơn của những công cụ này sẽ biến đổi việc chăm sóc sức khỏe hơn nữa", Rajesh Bhayana nói với Fox News Digital.

Trong tương lai, Rajesh Bhayana tin rằng những mô hình ngôn ngữ lớn này có thể trả lời chính xác các câu hỏi của bệnh nhân, giúp bác sĩ đưa ra chẩn đoán và hướng dẫn các quyết định điều trị.

Tập trung vào X quang, Rajesh Bhayana dự đoán rằng mô hình ngôn ngữ lớn có thể giúp nâng cao khả năng của các bác sĩ và giúp họ làm việc hiệu quả hơn.

Tuy nhiên, bà nhận xét: “Các mô hình ngôn ngữ lớn chưa đủ tin cậy để sử dụng cho thực hành lâm sàng, nhưng chúng tôi đang đi đúng hướng một cách nhanh chóng”.

Hạn chế của mô hình ngôn ngữ lớn trong y học

Có lẽ hạn chế lớn nhất của mô hình ngôn ngữ lớn trong X quang là không có khả năng giải thích dữ liệu hình ảnh, một khía cạnh quan trọng, Harvey Castro nói.

Rajesh Bhayana chỉ ra rằng các mô hình ngôn ngữ lớn như GPT cũng được biết đến với xu hướng "ảo giác", cung cấp thông tin không chính xác theo cách rất tự tin.

"Các mô hình chưa đủ tin cậy để sử dụng cho thực hành lâm sàng. Những ảo giác này giảm trong GPT-4 so với GPT-3.5, nhưng vẫn xảy ra quá thường xuyên để có thể sử dụng trong thực hành lâm sàng", Rajesh Bhayana nói.

Rajesh Bhayana nói thêm: “Các bác sĩ và bệnh nhân nên nhận thức được những điểm mạnh và hạn chế của các mô hình ngôn ngữ lớn này, gồm cả việc biết rằng chúng không thể được coi là nguồn thông tin duy nhất hiện nay”.

Harvey Castro cho rằng dù các mô hình ngôn ngữ lớn có thể có đủ kiến thức để vượt qua các bài kiểm tra, nhưng không thể sánh kịp bác sĩ khi xác định chẩn đoán của bệnh nhân và lập kế hoạch điều trị.

Ông nói: “Các kỳ thi tiêu chuẩn, gồm cả chẩn đoán hình ảnh, thường tập trung vào các trường hợp như trong giáo trình. Thế nhưng trong thực hành lâm sàng, bệnh nhân hiếm khi xuất hiện các triệu chứng như ở giáo trình".

Harvey Castro cho biết mỗi bệnh nhân có các triệu chứng, tiền sử và các yếu tố cá nhân riêng biệt có thể khác với các trường hợp "tiêu chuẩn".

"Sự phức tạp này thường đòi hỏi khả năng phán đoán và ra quyết định tinh tế. Đây là khả năng mà AI, gồm cả các mô hình tiên tiến như GPT-4, đang thiếu", ông nhận định.

Dù điểm số được cải thiện của GPT-4 là đầy hứa hẹn, Harvey Castro cho biết còn nhiều việc phải làm để đảm bảo rằng các công cụ AI chính xác, an toàn và có giá trị trong môi trường lâm sàng thực tế.

Bài liên quan

Rộ tin GPT-5 đạt đến khả năng không tưởng, ra mắt cuối năm 2023

Tin đồn đang lan truyền cho biết GPT-5 có thể đạt đến giai đoạn đào tạo cuối cùng vào tháng 12.2023.

Đọc tiếp

Giám đốc nghiên cứu Microsoft mất ngủ vài tuần vì GPT-4

Sau bức thư ngỏ của hơn 1.800 chuyên gia, CEO OpenAI bác tin đang huấn luyện GPT-5

Microsoft thêm bản nâng cấp AI đáng giá cho ChatGPT và Bing để cạnh tranh với Google

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Cuộc họp Thủ tướng ba nước Việt Nam, Lào, Campuchia

4 giờ trước Sự kiện

Chiều 22.2, nhân dịp tham dự Cuộc gặp giữa ba người đứng đầu ba Đảng Việt Nam, Campuchia và Lào tại TP.HCM, Thủ tướng Chính phủ Phạm Minh Chính đã có cuộc gặp làm việc với Thủ tướng Campuchia Hun Manet và Thủ tướng Lào Sonexay Siphandone nhằm quán triệt các nội dung thỏa thuận tại kết luận của cuộc gặp giữa ba người đứng đầu ba đảng.

Những khác biệt chính của iPhone 16e và iPhone 16: Nên chọn máy nào?

iPhone 16e là lựa chọn kinh tế hơn iPhone 16, nhưng đi kèm với một số hạn chế nhất định.
TP.HCM: Người nhận hỗ trợ 2,7 tỉ đồng do sắp xếp bộ máy phải đáp ứng điều kiện gì?

Kỳ họp lần thứ 21 (kỳ họp chuyên đề), HĐND TP.HCM chiều 20.2 đã thông qua Nghị quyết về chế...
Kiện toàn Ban Chỉ đạo xây dựng Luật KH-CN (sửa đổi): Phó thủ tướng Bùi Thanh Sơn làm trưởng ban

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Quyết định số 380/QĐ-TTg ngày 20.2.2025 về việc...

Đừng bỏ lỡ

Thành công nhờ... không học đạo diễn chính quy

4 giờ trước Văn hóa

Lý Hải, Trấn Thành, Thu Trang là những đạo diễn thành công với điện ảnh, ít nhất là về mặt doanh thu phòng vé khi phim thu về trên 100 tỉ.
Ai mì Quảng không - ca khúc hay nhất về món ăn của một vùng quê

6 giờ trước Văn hóa

Có thể nói ca khúc Ai mì quảng không của cố nhạc sĩ Trần Phú Thiên là bài hát hay nhất viết về ẩm thực vùng miền.
Kiểm định cầu Đồng Nai, hạn chế lưu thông

7 giờ trước Hạ tầng và bất động sản

Ngày 22.2, Khu Quản lý đường bộ IV (Cục Đường bộ Việt Nam) cho biết đang triển khai công tác kiểm định cầu Đồng Nai cũ theo hướng từ TP.HCM đi Đồng Nai.
'Áo giáp' cho tài xế công nghệ

8 giờ trước Góc bình luận

Nhiều vụ việc xâm phạm sức khỏe, tính mạng và tài sản của shipper, tài xế công nghệ trong thời gian gần đây cho thấy dường như lái xe công nghệ cũng là “nghề nguy hiểm”, nhất là khi nữ giới cầm lái.
Sôi nổi giải giao lưu Pickleball Bộ đội Biên phòng tỉnh An Giang

9 giờ trước Sự kiện

Giải giao lưu pickleball chào mừng kỷ niệm 66 năm ngày truyền thống Bộ đội Biên phòng Việt Nam (3.3.1959 – 3.3.2025) và 36 năm ngày Biên phòng toàn dân (3.3.1989 – 3.3.2025), do Bộ đội Biên phòng tỉnh An Giang tổ chức thu hút đông đảo các vận động viên đến từ cơ quan Bộ Chỉ huy và các đơn vị cơ sở tham gia.

Mới nhất

Cuộc họp Thủ tướng ba nước Việt Nam, Lào, Campuchia

4 giờ trước Sự kiện

Chiều 22.2, nhân dịp tham dự Cuộc gặp giữa ba người đứng đầu ba Đảng Việt Nam, Campuchia và Lào tại TP.HCM, Thủ tướng Chính phủ Phạm Minh Chính đã có cuộc gặp làm việc với Thủ tướng Campuchia Hun Manet và Thủ tướng Lào Sonexay Siphandone nhằm quán triệt các nội dung thỏa thuận tại kết luận của cuộc gặp giữa ba người đứng đầu ba đảng.
Những khác biệt chính của iPhone 16e và iPhone 16: Nên chọn máy nào?

5 giờ trước Thế giới số

iPhone 16e là lựa chọn kinh tế hơn iPhone 16, nhưng đi kèm với một số hạn chế nhất định.
TP.HCM: Người nhận hỗ trợ 2,7 tỉ đồng do sắp xếp bộ máy phải đáp ứng điều kiện gì?

7 giờ trước Theo dòng thời sự

Kỳ họp lần thứ 21 (kỳ họp chuyên đề), HĐND TP.HCM chiều 20.2 đã thông qua Nghị quyết về chế độ hỗ trợ thêm đối với cán bộ, công chức, viên chức, người lao động khi thực hiện sắp xếp tổ chức bộ máy.
Kiện toàn Ban Chỉ đạo xây dựng Luật KH-CN (sửa đổi): Phó thủ tướng Bùi Thanh Sơn làm trưởng ban

9 giờ trước Theo dòng thời sự

Thủ tướng Chính phủ Phạm Minh Chính vừa ký Quyết định số 380/QĐ-TTg ngày 20.2.2025 về việc kiện toàn Ban Chỉ đạo xây dựng Luật Khoa học và Công nghệ (KH-CN) (sửa đổi).
Thủ tướng yêu cầu khắc phục hậu quả vụ TNGT đặc biệt nghiêm trọng tại Sơn La

11 giờ trước Theo dòng thời sự

Ngày 22.2, Thủ tướng Phạm Minh Chính đã có Công điện chỉ đạo khắc phục hậu quả vụ tai nạn giao thông (TNGT) đặc biệt nghiêm trọng tại huyện Yên Châu, tỉnh Sơn La.