Mô hình o1 của OpenAI có năng lực chẩn đoán hơn bác sĩ chuyên khoa?
Một nghiên cứu từ Đại học Harvard vừa công bố kết quả cho thấy, mô hình o1 có khả năng chẩn đoán bệnh nhân hơn cả bác sĩ chuyên khoa.
Sự lấn lướt này được ghi nhận rõ nét ngay cả trong những tình huống áp lực cao tại phòng cấp cứu. Các nhà nghiên cứu đã đặt mô hình o1 của OpenAI lên bàn cân trực tiếp với hàng trăm y bác sĩ chuyên khoa thông qua nhiều điểm chạm lâm sàng. Qua đó, họ phát hiện ra rằng hệ thống máy học liên tục thể hiện sự chính xác cao hơn cả trong việc xác định bệnh lý lẫn lập kế hoạch quản lý lâm sàng. Điều này mở ra một góc nhìn hoàn toàn mới về giới hạn của công nghệ tạo sinh trong lĩnh vực chăm sóc sức khỏe.

Những con số biết nói từ sự khốc liệt của phòng cấp cứu
Phòng cấp cứu luôn được biết đến là một môi trường làm việc cực kỳ căng thẳng, nơi các y bác sĩ phải đưa ra những quyết định sinh tử dựa trên những mẩu thông tin rời rạc và dưới áp lực thời gian khủng khiếp. Nghiên cứu mới được công bố trên tạp chí khoa học danh giá Science đã tiến hành thử nghiệm ngay tại môi trường khắc nghiệt này với 76 ca lâm sàng thực tế được trích xuất từ Trung tâm Y tế Beth Israel Deaconess.
Các ca bệnh được giao đồng thời cho mô hình o1 và hai bác sĩ điều trị chuyên gia để cùng tiến hành đánh giá. Kết quả thu về cho thấy hệ thống thuật toán thông minh hoạt động ngang bằng hoặc thậm chí tốt hơn đáng kể so với các chuyên gia con người trên hàng loạt khía cạnh nhiệm vụ phức tạp.
Trong giai đoạn phân loại ban đầu, khi lượng thông tin cung cấp cho các bên là ít ỏi và mơ hồ nhất, mô hình o1 đã xác định được chẩn đoán chính xác hoặc cực kỳ sát với thực tế trong 67,1% số ca bệnh. Tỷ lệ này áp đảo mức độ chính xác 55,3% và 50% của hai vị bác sĩ chuyên khoa.
Khi quá trình đánh giá lâm sàng tiến triển và có nhiều thông tin chi tiết về các triệu chứng cũng như tiền sử bệnh án hơn, độ chính xác của công cụ máy học tiếp tục tăng lên mức 72,4%, bỏ xa con số 61,8% và 52,6% của các chuyên gia con người. Ở giai đoạn đánh giá cuối cùng khi bệnh nhân được quyết định nhập viện hoặc chuyển vào phòng chăm sóc tích cực, o1 đạt độ chính xác lên tới 81,6%, tiếp tục lấn lướt hai bác sĩ với kết quả lần lượt là 78,9% và 69,7%.
Sự vượt trội của máy móc tiếp tục được khẳng định sức mạnh khi hệ thống được yêu cầu đưa ra các phác đồ điều trị chi tiết, chẳng hạn như việc kê đơn thuốc kháng sinh hay lên kế hoạch cho các quyết định y tế cuối đời của người bệnh.
Trải qua năm nghiên cứu tình huống cụ thể, hệ thống của OpenAI đạt điểm số trung bình lên tới 89%, cao hơn một khoảng cách khổng lồ so với mức 34% của các y bác sĩ khi sử dụng tài nguyên y tế thông thường và mức 41% khi họ được hỗ trợ bởi công cụ GPT-4. Những con số này cho thấy khả năng tổng hợp kiến thức y khoa và suy luận logic của hệ thống đã đạt đến một ngưỡng vô cùng tinh vi.
Mô hình o1 và tương lai của ngành y học
Sự chênh lệch lớn về hiệu suất đã mở ra những cuộc thảo luận sâu sắc về việc ứng dụng công nghệ vào thực tiễn khám chữa bệnh hằng ngày. Đại diện nhóm nghiên cứu từ Đại học Harvard nhấn mạnh rằng: Mặc dù việc áp dụng thuật toán để hỗ trợ các quyết định lâm sàng, đôi khi bị xem là một nỗ lực chứa đựng nhiều rủi ro tiềm ẩn. Việc sử dụng rộng rãi hơn các công cụ này, có thể giúp giảm thiểu đáng kể những tổn thất khổng lồ về con người và tài chính. Do sai sót trong chẩn đoán, sự chậm trễ trong quá trình đưa ra quyết định và tình trạng bệnh nhân thiếu khả năng tiếp cận dịch vụ y tế chất lượng cao.
Các chuyên gia nhận định rằng các mô hình ngôn ngữ lớn hiện đã vượt qua hầu hết các tiêu chuẩn cốt lõi về suy luận lâm sàng, từ đó thúc đẩy nhu cầu cấp bách đối với các nghiên cứu về tương tác giữa người và máy tính. Quá trình này cũng đòi hỏi việc sớm triển khai các thử nghiệm lâm sàng nhằm đánh giá một cách nghiêm ngặt tiềm năng cải thiện hiệu quả điều trị của hệ thống nhân tạo.
Dù đạt được những thành tựu vô cùng ấn tượng về mặt xử lý dữ liệu chữ viết, giới khoa học vẫn đưa ra lời cảnh báo về những giới hạn thực tế của công nghệ trong không gian bệnh viện. Y học lâm sàng luôn tràn ngập những thông tin đầu vào không phải dạng văn bản, điển hình như việc quan sát mức độ đau đớn về thể xác, nét mặt căng thẳng của người bệnh hay việc phân tích trực quan các hình ảnh y khoa phức tạp.
Thuật toán hiện tại không có khả năng thấu cảm và thiếu đi sự nhạy bén của các giác quan con người khi thăm khám trực tiếp. Yếu tố này chỉ ra một thực tế rằng vẫn còn một nhu cầu rất lớn đối với các nghiên cứu trong tương lai nhằm đánh giá cách thức trí tuệ nhân tạo và lực lượng y tế có thể phối hợp với nhau một cách hiệu quả nhất thay vì đối đầu hay thay thế nhau.
Trong một tuyên bố gửi tới tờ báo The Guardian, tác giả chính của nghiên cứu là ông Arjun Manrai đã đưa ra góc nhìn vô cùng thận trọng và thực tế. Vị chuyên gia này cho biết bản thân không hề cho rằng những phát hiện mới này đồng nghĩa với việc máy móc sẽ tước đi vai trò của giới y khoa.
Ông thẳng thắn chia sẻ: "Tôi không nghĩ rằng những phát hiện của chúng tôi có nghĩa là trí tuệ nhân tạo sẽ thay thế các bác sĩ". Dù vậy, ông cũng khẳng định chắc chắn rằng thế giới đang thực sự chứng kiến một sự thay đổi sâu sắc về công nghệ. Ông nhấn mạnh thêm về một sự dịch chuyển tất yếu: "Tôi nghĩ điều đó có nghĩa là chúng ta đang chứng kiến một sự thay đổi thực sự sâu sắc về công nghệ sẽ định hình lại nền y học". Con đường phía trước của ngành y tế chắc chắn sẽ là sự song hành giữa sức mạnh tính toán vượt trội của thuật toán thông minh và lòng trắc ẩn không thể thay thế của con người.