Những nhà nghiên cứu Trung Quốc đã phát triển một khuôn khổ mới giúp nhà phát triển đào tạo các mô hình học máy mà họ hy vọng có thể dẫn đến việc tạo ra “các nhà khoa học trí tuệ nhân tạo (AI) thực sự” có khả năng cải tiến các thí nghiệm và giải quyết các vấn đề khoa học.
Học máy là một lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định.
Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...
Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.
Theo một bài báo vừa được đăng trên tạp chí bình duyệt Cell Press Nexus, các mô hình học sâu đã “cách mạng hóa lĩnh vực nghiên cứu khoa học” nhờ khả năng khám phá các mối quan hệ từ một lượng lớn dữ liệu.
Ví dụ gần đây là Sora, mô hình chuyển văn bản thành video của công ty OpenAI (Mỹ), mà các nhà phát triển cho biết có thể hiểu “mọi thứ tồn tại trong thế giới thực”.
Sora có khả năng mô tả sự vật tiên tiến, chân thực và được ca ngợi là một bước tiến lớn cho AI tạo sinh. Thế nhưng, OpenAI thừa nhận vẫn gặp khó khăn trong việc mô phỏng một số khía cạnh của thế giới thực và không thể “mô hình chính xác các định luật vật lý của nhiều tương tác cơ bản, chẳng hạn như vỡ kính”.
Sora được OpenAI đào tạo bằng cách lượng lớn dữ liệu hình ảnh, cho phép mô hình AI này chọn các mẫu để tạo ra video mô phỏng thực tế. Thế nhưng, Sora không được đào tạo để hiểu các định luật vật lý như lực hấp dẫn.
Học sâu là một lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.
Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.
Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, ngôn ngữ tự nhiên, dịch ngôn ngữ và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).
Chen Yuntian, tác giả nghiên cứu và là giáo sư tại Viện Công nghệ Phương Đông (Trung Quốc), cho biết: “Nếu không có hiểu biết cơ bản về thế giới, một mô hình chỉ nên được xem là hoạt cảnh chứ không phải mô phỏng”.
Theo bài báo trên Cell Press Nexus, các mô hình học sâu thường được đào tạo bằng cách sử dụng dữ liệu chứ không phải kiến thức có sẵn - có thể bao gồm những thứ như định luật vật lý hoặc logic toán học.
Thế nhưng, các nhà khoa học từ Đại học Bắc Kinh và Viện Công nghệ Phương Đông viết rằng khi đào tạo các mô hình, kiến thức trước đó có thể được sử dụng cùng với dữ liệu để làm cho chúng chính xác hơn, tạo ra các mô hình “học máy thông tin” có khả năng đưa kiến thức này vào đầu ra của chúng.
Theo nhóm nghiên cứu, việc quyết định xem kiến thức trước đó, có thể bao gồm những thứ như mối quan hệ chức năng, phương trình và logic, để đưa vào một mô hình cho nó “học trước” là một thách thức và việc kết hợp nhiều quy tắc cũng có thể dẫn đến mô hình bị sụp đổ.
Chen Yuntian cho biết: “Khi phải đối mặt với một lượng lớn kiến thức và quy tắc – điều thường xảy ra, các mô hình học máy thông tin hiện tại có xu hướng gặp khó khăn hoặc thậm chí sụp đổ”.
Muốn giải quyết vấn đề này, các nhà nghiên cứu đã tạo ra một khuôn khổ để đánh giá giá trị của các quy tắc và xác định sự kết hợp nào dẫn đến các mô hình có tính dự đoán cao nhất.
Xu Hao, tác giả và nhà nghiên cứu tại Đại học Bắc Kinh, cho biết: “Việc đưa kiến thức của con người vào các mô hình AI có khả năng cải thiện hiệu quả và khả năng suy luận của chúng, nhưng câu hỏi đặt ra là làm thế nào để cân bằng giữa ảnh hưởng của dữ liệu và kiến thức. Khuôn khổ của chúng tôi có thể được sử dụng để đánh giá các kiến thức và quy tắc khác nhau nhằm nâng cao khả năng dự đoán của các mô hình học sâu”.
Theo bài báo, khuôn khổ này tính toán “tầm quan trọng của quy tắc”, xem xét một quy tắc hoặc sự kết hợp các quy tắc cụ thể ảnh hưởng đến độ chính xác dự đoán của một mô hình.
Chen Yuntian cho biết việc dạy các mô hình AI về những quy luật như vậy, ví dụ các định luật vật lý, có thể khiến chúng "phản ánh thế giới thực nhiều hơn, trở nên hữu ích hơn trong khoa học và kỹ thuật".
Nhóm nghiên cứu đã thử nghiệm khuôn khổ của họ bằng cách sử dụng nó để tối ưu hóa một mô hình giải các phương trình đa biến và một mô hình khác dùng để dự đoán kết quả của một thí nghiệm hóa học.
Chen Yuntian nói rằng trong ngắn hạn, khuôn khổ này sẽ hữu ích nhất với các mô hình khoa học mà “trong đó tính nhất quán giữa mô hình và các định luật vật lý là rất quan trọng để tránh những hậu quả tai hại tiềm ẩn”.
Nhóm nghiên cứu hy vọng sẽ phát triển khuôn khổ của mình hơn nữa để cho phép AI xác định kiến thức và quy tắc riêng trực tiếp từ dữ liệu mà không cần sự can thiệp từ con người.
Chen Yuntian tuyên bố: “Chúng tôi muốn biến nó thành một vòng khép kín bằng cách biến mô hình này thành nhà khoa học AI thực sự”. Nhóm đang phát triển một công cụ plugin, mã nguồn mở dành cho các nhà phát triển AI có thể cho phép họ đạt được điều này.
Tuy nhiên, nhóm đã xác định được ít nhất một vấn đề.
Trong quá trình nghiên cứu, nhóm phát hiện ra rằng khi thêm nhiều dữ liệu vào mô hình, các quy tắc tổng quát sẽ trở nên quan trọng hơn quy tắc cục bộ cụ thể. Điều này không giúp ích gì cho các lĩnh vực như sinh học và hóa học vì chúng “thường thiếu các quy tắc tổng quát có sẵn giống như các phương trình chi phối”.
Phương trình chi phối đề cập đến phương trình toán học mô tả các quy luật cơ bản chi phối một hệ thống hoặc hiện tượng cụ thể.