Nhà vật lý John Hopfield của Đại học Princeton và nhà khoa học máy tính Geoffrey Hinton của Đại học Toronto đã được trao giải Nobel Vật lý vào ngày 8.10.2024, cho công trình tiên phong của họ trong lĩnh vực mạng nơ-ron nhân tạo.
Nếu bạn cảm thấy không thể tin nổi khi xem video mới nhất do AI tạo ra, số dư ngân hàng của bạn đã được bảo vệ khỏi hacker nhờ hệ thống phát hiện gian lận hoặc công việc hằng ngày của bạn trở nên dễ dàng hơn nhờ các trợ lý ảo, thì bạn phải cảm ơn nhiều nhà khoa học, nhà toán học và kỹ sư.
Nhưng có hai cái tên nổi bật vì những đóng góp nền tảng cho công nghệ học sâu (deep learning) giúp những trải nghiệm đó trở nên khả thi: nhà vật lý John Hopfield của Đại học Princeton và nhà khoa học máy tính Geoffrey Hinton của Đại học Toronto.
Hai nhà nghiên cứu đã được trao giải Nobel Vật lý vào ngày 8.10.2024, cho công trình tiên phong của họ trong lĩnh vực mạng nơ-ron nhân tạo.
Mặc dù mạng nơ-ron nhân tạo được mô phỏng theo mạng nơ-ron sinh học, nhưng công trình của cả hai nhà nghiên cứu đều dựa trên vật lý thống kê, do đó giải thưởng này được trao cho lĩnh vực vật lý.
Cách tính toán của nơ-ron
Mạng nơ-ron nhân tạo có nguồn gốc từ các nghiên cứu về nơ-ron sinh học trong não sống. Năm 1943, nhà sinh lý học thần kinh Warren McCulloch và nhà logic học Walter Pitts đã đề xuất một mô hình đơn giản về cách thức hoạt động của một tế bào thần kinh.
Trong mô hình McCulloch-Pitts, một tế bào thần kinh được kết nối với các tế bào thần kinh lân cận và có thể nhận tín hiệu từ chúng. Sau đó, nó có thể kết hợp các tín hiệu đó để gửi tín hiệu đến các tế bào thần kinh khác.
Nhưng có một sự thay đổi: Nó có thể cân nhắc các tín hiệu đến từ các tế bào thần kinh lân cận khác nhau theo cách khác nhau. Hãy tưởng tượng rằng bạn đang cân nhắc xem có nên mua một chiếc điện thoại bán chạy nhất mới hay không. Bạn nói chuyện với bạn bè và tìm kiếm tư vấn từ họ.
Một chiến lược đơn giản là thu thập tất cả các khuyến nghị của bạn bè và quyết định đồng ý theo ý kiến từ số đông. Ví dụ, bạn hỏi ba người bạn, Alice, Bob và Charlie, và họ lần lượt nói có, có và không. Điều này dẫn bạn đến quyết định mua điện thoại vì bạn có hai người đồng ý và một người phản đối.
Tuy nhiên, bạn lại có thể tin tưởng một số người bạn hơn vì họ có kiến thức sâu rộng về lĩnh vực cụ thể. Vì vậy, bạn có thể quyết định cân nhắc nhiều hơn đến các khuyến nghị của họ.
Ví dụ trường hợp trên, nếu Charlie là người rất hiểu biết về điện thoại, bạn có thể nhân 3 giá trị ý kiến của Charlie. Khi ấy, quyết định của bạn là không mua điện thoại vì giá trị ý kiến mua của Alice và Bob gộp lại chỉ là 2 còn riêng ý kiến không mua của Charlie là 3.
Nếu bạn có một người bạn mà bạn hoàn toàn không tin tưởng về các vấn đề kỹ thuật, bạn thậm chí có thể gán ý kiến cho họ một số âm. Vì vậy, đồng ý của họ được tính là không đồng ý và phản đối của họ được tính là đồng ý. Ví dụ kiểu chuyện vui là “Tào Tháo nói phàm việc gì trong thiên hạ thì về nhà hỏi vợ, vợ nói sao thì làm ngược lại”.
Sau khi bạn tự đưa ra quyết định về việc điện thoại mới có phải là lựa chọn tốt hay không, những người bạn khác có thể yêu cầu bạn đưa ra ý kiến cho họ.
Tương tự như vậy, trong các mạng nơ-ron nhân tạo và sinh học, các nơ-ron có thể tổng hợp các tín hiệu từ các nơ-ron lân cận và gửi tín hiệu đến các nơ-ron khác.
Khả năng này dẫn đến một sự khác biệt chính: Có một chu kỳ trong mạng không? Ví dụ, nếu hôm nay tôi hỏi Alice, Bob và Charlie và ngày mai Alice hỏi tôi về đề xuất của tôi, thì sẽ có một chu kỳ: từ Alice đến tôi và từ tôi trở lại Alice.
Nếu các kết nối giữa các nơ-ron không có chu kỳ, thì các nhà khoa học máy tính gọi đó là mạng nơ-ron truyền thẳng. Các nơ-ron trong mạng truyền thẳng có thể được sắp xếp theo từng lớp.
Lớp đầu tiên bao gồm các đầu vào. Lớp thứ hai nhận tín hiệu từ lớp đầu tiên... Lớp cuối cùng biểu diễn đầu ra của mạng.
Tuy nhiên, nếu có một chu kỳ trong mạng, các nhà khoa học máy tính gọi đó là mạng nơ-ron hồi quy và sự sắp xếp của các nơ-ron có thể phức tạp hơn so với mạng nơ-ron truyền thẳng.
Mạng Hopfield
Nguồn cảm hứng ban đầu cho mạng nơ-ron nhân tạo đến từ sinh học, nhưng chẳng mấy chốc các lĩnh vực khác bắt đầu định hình sự phát triển của chúng. Đó là logic, toán học và vật lý.
Nhà vật lý John Hopfield đã sử dụng các ý tưởng từ vật lý để nghiên cứu một loại mạng nơ-ron hồi quy cụ thể, hiện được gọi là mạng Hopfield. Cụ thể, ông đã nghiên cứu động lực của chúng: Điều gì xảy ra với mạng theo thời gian?
Động lực như vậy cũng quan trọng khi thông tin lan truyền qua các mạng xã hội. Mọi người đều biết về các meme lan truyền nhanh chóng trong các nhóm rồi hình thành xu hướng trên các mạng xã hội trực tuyến. Đây đều là những hiện tượng phát sinh ra cộng đồng từ các trao đổi thông tin đơn giản giữa những người trong mạng.
Hopfield là người tiên phong trong việc sử dụng các mô hình từ vật lý, đặc biệt là các mô hình được phát triển để nghiên cứu từ tính, để hiểu động lực của các mạng nơ-ron hồi quy. Ông cũng chỉ ra rằng động lực của chúng có thể cung cấp cho các mạng nơ-ron như vậy một dạng trí nhớ.
Máy Boltzmann và truyền ngược
Vào những năm 1980, Geoffrey Hinton, nhà khoa học thần kinh lý thuyết (là một nhánh của khoa học thần kinh sử dụng toán học, khoa học máy tính, phân tích lý thuyết và trừu tượng hóa não bộ để hiểu các nguyên tắc chi phối sự phát triển, cấu trúc, sinh lý và khả năng nhận thức của hệ thần kinh) Terrence Sejnowski và những người khác đã mở rộng ý tưởng của Hopfield để tạo ra một lớp mô hình mới gọi là máy Boltzmann, được đặt theo tên nhà vật lý Ludwig Boltzmann thế kỷ 19. Như tên gọi, thiết kế của các mô hình này bắt nguồn từ vật lý thống kê do Boltzmann tiên phong.
Không giống như các mạng Hopfield chỉ có thể lưu trữ các mẫu và sửa lỗi trong các mẫu giống như trình kiểm tra chính tả, máy Boltzmann còn có thể tạo ra các mẫu mới, do đó gieo mầm cho cuộc cách mạng AI tạo sinh hiện đại.
Hinton cũng là một phần của một bước đột phá khác xảy ra vào những năm 1980: truyền ngược. Nếu bạn muốn các mạng nơ-ron nhân tạo thực hiện các nhiệm vụ thú vị, bằng cách nào đó bạn phải chọn đúng trọng số cho các kết nối giữa các nơ-ron nhân tạo.
Truyền ngược ("backward propagation of errors" tức là "truyền ngược của sai số", là một phương pháp phổ biến để huấn luyện các mạng thần kinh nhân tạo) là một thuật toán quan trọng giúp có thể chọn trọng số dựa trên hiệu suất của mạng từ tập dữ liệu đào tạo. Tuy nhiên, việc đào tạo các mạng nơ-ron nhân tạo với nhiều lớp vẫn còn là một thách thức.
Vào những năm 2000, Hinton và các cộng sự đã khéo léo sử dụng máy Boltzmann để đào tạo mạng nhiều lớp bằng cách đầu tiên là đào tạo trước từng lớp mạng và sau đó sử dụng một thuật toán tinh chỉnh khác trên mạng đã được đào tạo trước để điều chỉnh thêm trọng số. Mạng nhiều lớp được đổi tên thành mạng sâu (deep web) và cuộc cách mạng học sâu (deep learning) đã bắt đầu.
AI trả ơn cho vật lý
Giải Nobel vật lý cho thấy các ý tưởng từ vật lý đã góp phần vào sự phát triển của học sâu như thế nào. Giờ đây, đến lượt học sâu bắt đầu trả ơn cho vật lý bằng cách cho phép mô phỏng chính xác và nhanh chóng các hệ thống từ phân tử và vật liệu cho đến toàn bộ khí hậu của Trái đất.
Bằng cách trao Giải Nobel vật lý cho Hopfield và Hinton, ủy ban trao giải đã thể hiện hy vọng của mình vào tiềm năng trong việc sử dụng những tiến bộ này để thúc đẩy hạnh phúc của con người và xây dựng một thế giới bền vững.