o3 được xem là mô hình trí tuệ nhân tạo (AI) mạnh nhất của OpenAI đến nay, nhưng có một nhược điểm lớn: Chi phí vận hành cực kỳ đắt đỏ, theo trang TechCrunch.
Được công bố cách đây hơn một tuần, o3 lý luận qua các vấn đề bằng kỹ thuật được gọi là tính toán thời gian thực (test-time compute), tức là mất thêm thời gian để suy nghĩ và khám phá nhiều khả năng trước khi đưa ra câu trả lời. Do đó, các kỹ sư OpenAI hy vọng rằng o3 sẽ tạo ra các phản hồi tốt hơn cho những câu hỏi phức tạp, thay vì vội vàng đưa ra kết luận sai lầm.
Có vẻ như điều đó mang lại hiệu quả, ít nhất là ở một mức độ nào đó. Trong "chế độ tính toán cao" mạnh nhất của mình, o3 đạt 87,5% trên điểm chuẩn ARC-AGI, theo François Chollet - người tạo ra bài kiểm tra này. Con số đó gần gấp ba lần điểm cao nhất của mô hình o1 trước đó, chỉ đạt 32%.
ARC-AGI là tiêu chuẩn đánh giá được thiết kế để đo lường khả năng của một mô hình AI trong việc thực hiện các nhiệm vụ phức tạp và đa dạng, giống con người. Nó được coi là một thước đo cho thấy mô hình AI có đang tiến gần đến mức độ thông minh tổng quát của con người hay không.
Các điểm chính về ARC-AGI
Mục tiêu: Đánh giá khả năng của một mô hình AI trong việc giải quyết các vấn đề phức tạp, đòi hỏi sự suy luận, học hỏi và thích ứng.
Cách thức hoạt động: ARC-AGI bao gồm một bộ các bài kiểm tra đa dạng, từ bài toán toán học phức tạp đến bài kiểm tra hiểu biết về thế giới thực. Các mô hình AI phải vượt qua các bài kiểm tra này để đạt được điểm số cao.
Ý nghĩa: ARC-AGI được coi là cột mốc quan trọng trong việc phát triển AI. Việc đạt được điểm số cao trong các bài kiểm tra ARC-AGI cho thấy một mô hình AI có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ khoa học đến y tế.
Tại sao ARC-AGI quan trọng?
Đánh giá tiến độ: ARC-AGI cung cấp một khung chuẩn để các nhà nghiên cứu AI so sánh và đánh giá tiến độ của các mô hình khác nhau.
Hướng dẫn nghiên cứu: Kết quả của các bài kiểm tra ARC-AGI có thể giúp các nhà nghiên cứu xác định những điểm mạnh và điểm yếu của các mô hình hiện tại, từ đó định hướng cho các nghiên cứu trong tương lai.
Đảm bảo an toàn: Việc phát triển các mô hình AI tổng quát đòi hỏi phải có sự cẩn trọng. ARC-AGI giúp đảm bảo rằng các mô hình này được phát triển một cách an toàn và có trách nhiệm.
Tóm lại, ARC-AGI là công cụ quan trọng để đánh giá tiến độ của nghiên cứu về AI. Nó giúp chúng ta hiểu rõ hơn về khả năng của các mô hình AI hiện tại và định hướng cho việc phát triển các mô hình AI trong tương lai.
Tuy nhiên, tất cả những suy nghĩ cẩn thận đó đều đi kèm với chi phí khổng lồ. Để đạt được thành tích cao như vậy, o3 ngốn hơn 1.000 USD sức mạnh tính toán cho mỗi nhiệm vụ, gấp 170 lần so với phiên bản o3 sử dụng ít năng lượng, và vượt xa o1 (chỉ ngốn chưa đến 4 USD mỗi nhiệm vụ).
Những chi phí này làm phức tạp thêm các tuyên bố trong ngành công nghiệp AI rằng hiệu suất của o3 đã phá tan nỗi sợ rằng việc cải tiến các mô hình AI thông qua "mở rộng quy mô" (tăng cường sức mạnh xử lý và dữ liệu đào tạo) đang dần đạt tới giới hạn.
Một mặt, việc o3 đạt điểm cao hơn gần ba lần so với o1, mô hình AI được OpenAI phát hành cách đây ba tháng, có vẻ là bằng chứng cho thấy sự tiến bộ của AI không chậm lại.
Song, những lời chỉ trích về việc mở rộng quy mô là sẽ dẫn đến lợi nhuận do AI mang lại giảm dần. Dù lợi nhuận ở đây phần lớn đạt được thông qua việc thay đổi cách mô hình AI "lý luận" thay vì chỉ mở rộng quy mô, chi phí bổ sung là rất khó bỏ qua.
Ngay cả phiên bản o3 sử dụng ít năng lượng, việc đạt điểm ấn tượng ở mức 76% trong bài kiểm tra ARC-AGI cũng gây tiêu tốn khoảng 20 USD mỗi nhiệm vụ. Đây là khoản tiết kiệm tương đối so với phiên bản o3 trong chế độ "tính toán cao", nhưng vẫn đắt gấp nhiều lần so với các mô hình AI trước của OpenAI. Không rõ sản phẩm hướng đến người dùng này có thể thông minh đến mức nào mà không đẩy OpenAI vào tình trạng lỗ nặng.
Trong một bài đăng trên blog giải thích kết quả điểm chuẩn, François Chollet khẳng định dù o3 đang tiếp cận mức hiệu suất của con người, nhưng nó "đi kèm với chi phí rất cao và vẫn chưa thực sự mang tính kinh tế".
"Việc thuê con người thực hiện những nhiệm vụ phức tạp như trong bài kiểm tra ARC-AGI hiện tại rẻ hơn nhiều so với chi phí vận hành o3, đặc biệt là về mặt tiêu hao năng lượng", François Chollet viết.
Tuy nhiên, ông nhấn mạnh rằng "hiệu suất chi phí có thể sẽ cải thiện đáng kể trong vài tháng và vài năm tới".
Chúng ta sẽ phải chờ xem. Hiện o3 vẫn chưa có sẵn cho công chúng, còn phiên bản mini của nó dự kiến sẽ ra mắt vào tháng 1.2025.
Chiến dịch 12 ngày Shipmas của OpenAI
Hôm 20.12, OpenAI đã kết thúc chiến dịch 12 ngày Shipmas bằng việc trình làng o3, phiên bản nâng cấp của mô hình suy luận o1. Công ty đã lần đầu giới thiệu o1 vào tháng 9, quảng bá khả năng "lý luận nâng cao" của nó.
Ngoài o3, OpenAI còn ra mắt o3-mini. Dù o2 lẽ ra là số thứ tự tiếp theo của mô hình suy luận này, phát ngôn viên OpenAI nói với hãng tin Bloomberg rằng công ty không sử dụng tên đó "vì tôn trọng" hãng viễn thông O2 (Anh).
Greg Kamradt từ Arc Prize, tổ chức đo lường tiến bộ hướng tới trí tuệ nhân tạo tổng quát (AGI), xuất hiện trong buổi livestream cùng Sam Altman (Giám đốc điều hành OpenAI) và nói o3 thể hiện tốt hơn đáng kể so với o1 trong các bài kiểm tra của ARC-AGI.
AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".
Sam Altman nói trong buổi livestream rằng o3 và o3 mini sẽ được thử nghiệm công khai để đảm bảo an toàn. Ông cũng chia sẻ rằng OpenAI dự kiến phát hành o3 mini vào cuối tháng 1.2025 và o3 ngay sau đó.
Trong một bài đăng trên X, Kevin Weil (Giám đốc sản phẩm OpenAI) nhận định o3 là "một bước tiến lớn so với o1 trên tất cả tiêu chuẩn khó nhất của chúng tôi".
OpenAI đã khởi đầu chiến dịch Shipmas bằng việc ra mắt phiên bản đầy đủ của o1, mô hình AI lập luận mới nhất.
Vào tháng 9, OpenAI đã giới thiệu phiên bản xem trước o1, mô tả nó "được thiết kế để dành nhiều thời gian suy nghĩ hơn trước khi trả lời". Đến nay, o1 chỉ dành cho người dùng ChatGPT Plus và Team.
Hiện tại, người dùng ChatGPT Plus và Team có thể truy cập đầy đủ tính năng của o1. Theo Sam Altman, phiên bản o1 đầy đủ nhanh hơn, thông minh hơn và dễ sử dụng hơn so với bản thử nghiệm. Ngoài ra, nó còn hỗ trợ đa phương thức, nghĩa là có thể xử lý hình ảnh và văn bản đồng thời.
Max Schwarzer, nhà nghiên cứu tại OpenAI, cho biết phiên bản đầy đủ của o1 được cập nhật dựa trên phản hồi từ người dùng bản thử nghiệm và giờ đây thông minh cũng như chính xác hơn.
"Chúng tôi đã thực hiện hàng loạt đánh giá chi tiết bởi con người với mô hình này và nhận thấy rằng nó giảm khoảng 34% sai lầm nghiêm trọng so với bản o1 thử nghiệm, trong khi suy nghĩ nhanh hơn 50%", ông nói.
Cùng với o1, OpenAI ra mắt một gói đăng ký mới cho ChatGPT mang tên ChatGPT Pro. Gói này có giá 200 USD mỗi tháng, gồm cả quyền truy cập không giới hạn vào phiên bản mới nhất o1.
Tóm tắt 12 ngày chiến dịch Shipmas của OpenAI
Ngày 1: Ra mắt phiên bản đầy đủ o1 với khả năng lý luận nâng cao, xử lý đa phương thức và cải thiện đáng kể độ chính xác. Giới thiệu gói ChatGPT Pro với giá 200 USD/tháng.
Ngày 2: Công bố tính năng tinh chỉnh o1 bằng dữ liệu riêng, cho phép người dùng cá nhân hóa AI cho các lĩnh vực cụ thể. Công nghệ này sẽ được cung cấp cho công chúng vào năm tới, cho phép bất kỳ ai từ kỹ sư học máy đến nhà nghiên cứu di truyền tạo ra mô hình AI dành riêng cho từng lĩnh vực. OpenAI hợp tác với hãng thông tấn Reuters để phát triển trợ lý pháp lý dựa trên o1-mini. Công ty cũng hợp tác với Phòng thí nghiệm quốc gia Lawrence Berkeley (Mỹ) để phát triển các phương pháp tính toán nhằm đánh giá các bệnh di truyền hiếm gặp.
Ngày 3: OpenAI thông báo Sora ra mắt công chúng, cho phép người dùng trả phí tạo video từ mô tả văn bản, chỉnh sửa khung hình và tổ chức các đoạn phim bằng tính năng Storyboard. Người dùng đăng ký ChatGPT Plus với giá 20 USD/tháng có thể tạo tối đa 50 video AI mỗi tháng, mỗi video có thời lượng 5 giây với độ phân giải 720p. Người dùng ChatGPT Pro với giá 200 USD/tháng có thể tạo video không giới hạn ở chế độ chờ xử lý lâu và 500 video trong chế độ nhanh, theo Sam Altman. Người dùng ChatGPT Pro có thể tạo video dài tối đa 20 giây với độ phân giải 1080p, không có watermark (đóng mộc).
Ngày 4: Triển khai công cụ Canvas cho tất cả người dùng ChatGPT trên web, hỗ trợ viết và chỉnh sửa văn bản, cũng như chạy mã trực tiếp trong giao diện này. Canvas được thiết kế như giao diện cộng tác, giúp người dùng làm việc hiệu quả hơn trên các dự án viết lách, chỉnh sửa hoặc lập trình.
Ngày 5: Tích hợp ChatGPT vào hệ sinh thái Apple, gồm Siri và các công cụ AI tạo nội dung trên iPhone, iPad, macOS.
Ngày 6: Cập nhật Advanced Voice Mode (chế độ giọng nói nâng cao) với khả năng video và chia sẻ màn hình, giúp ChatGPT hỗ trợ tốt hơn trong các bài hướng dẫn trực quan.
Ngày 7: Ra mắt tính năng Projects, giúp người dùng tổ chức và cá nhân hóa các cuộc trò chuyện, lưu trữ tệp, ghi chú, tạo hướng dẫn tùy chỉnh.
Ngày 8: Mở rộng tính năng SearchGPT cho tất cả người dùng, cho phép tìm kiếm trực tiếp và cung cấp kết quả tìm kiếm dưới dạng hội thoại.
Ngày 9: Cung cấp API o1 cho nhà phát triển, thêm các tính năng như gọi hàm, đầu ra cấu trúc, đầu vào hình ảnh và thông điệp dành riêng cho lập trình viên.
Ngày 10: Giới thiệu khả năng gọi điện thoại và gửi tin nhắn WhatsApp qua ChatGPT, cho phép tương tác qua điện thoại ngay cả khi không có kết nối dữ liệu.
Ngày 11: Cập nhật ứng dụng ChatGPT trên macOS với các tính năng hỗ trợ ứng dụng viết mã và công cụ ghi chú như Notion, Quip, Apple Notes.
Ngày 12: Kết thúc chiến dịch bằng việc ra mắt o3, o3 mini với các cải tiến lớn về khả năng lý luận và hiệu suất.