Các hệ thống trí tuệ nhân tạo (AI) gọi là mô hình ngôn ngữ lớn, chẳng hạn GPT của OpenAI, được ca ngợi là sự khởi đầu cho kỷ nguyên công nghệ mới. Các mô hình ngôn ngữ lớn này thực sự có tác động đáng kể đến cách chúng ta sống và làm việc trong tương lai.
Tuy nhiên, chúng không phải đột nhiên xuất hiện và thực tế đã có một lịch sử lâu đời hơn nhiều so với những gì hầu hết mọi người nhận ra.
Mô hình ngôn ngữ lớn là một loại mô hình ngôn ngữ cụ thể, được hiểu là biểu diễn toán học của ngôn ngữ dựa trên xác suất. Nếu từng sử dụng tính năng dự đoán từ trên smartphone hoặc đặt câu hỏi cho loa thông minh, gần như chắc chắn bạn đã sử dụng một mô hình ngôn ngữ. Song, mô hình ngôn ngữ lớn thực sự hoạt động như thế nào và cần gì để tạo ra chúng?
Các mô hình ngôn ngữ được thiết kế để ước tính khả năng xuất hiện của một chuỗi từ cụ thể. Đây là lúc xác suất phát huy vai trò. Ví dụ, mô hình ngôn ngữ tốt cho tiếng Anh sẽ gán xác suất cao cho một câu hoàn chỉnh như the old black cat slept soundly (con mèo đen già ngủ say) và xác suất thấp cho chuỗi từ ngẫu nhiên như library a or the quantum some (thư viện a hoặc lượng tử nào đó).
Hầu hết mô hình ngôn ngữ cũng có thể đảo ngược quá trình này để tạo ra văn bản có vẻ hợp lý. Tính năng dự đoán từ trên smartphone sử dụng các mô hình ngôn ngữ để dự đoán cách bạn muốn hoàn thành văn bản khi đang gõ.
Phương pháp đầu tiên để tạo ra mô hình ngôn ngữ được mô tả vào năm 1951 bởi Claude Shannon, nhà nghiên cứu làm việc tại hãng công nghệ IBM (Mỹ). Phương pháp tiếp cận của ông dựa trên các chuỗi từ được gọi là n-gram, chẳng hạn old black (con mèo đen già) hoặc cat slept soundly (con mèo ngủ say).
Xác suất n-gram xuất hiện trong văn bản được ước tính bằng cách tìm kiếm các ví dụ trong tài liệu có sẵn. Sau đó, các xác suất toán học này được kết hợp để tính xác suất tổng thể của những chuỗi từ dài hơn, chẳng hạn câu hoàn chỉnh.
Việc ước tính xác suất cho các n-gram trở nên khó khăn hơn khi n-gram dài hơn, nên việc ước tính chính xác xác suất cho 4-gram (chuỗi gồm 4 từ) khó hơn nhiều so với bi-gram (chuỗi gồm 2 từ). Vì vậy, các mô hình ngôn ngữ ban đầu thường dựa trên các n-gram ngắn.
Tuy nhiên, điều này khiến chúng thường gặp khó khăn trong việc thể hiện mối liên hệ giữa các từ cách xa nhau, có thể dẫn đến việc phần đầu và phần cuối của một câu không khớp nhau khi mô hình ngôn ngữ được dùng để tạo ra một câu.
Để tránh vấn đề này, các nhà nghiên cứu đã tạo ra các mô hình ngôn ngữ dựa trên mạng nơ-ron. Đó là hệ thống trí tuệ nhân tạo (AI) được mô phỏng theo cách não người hoạt động. Các mô hình ngôn ngữ này có thể biểu diễn kết nối giữa những từ có thể không gần nhau. Mạng nơ-ron dựa vào số lượng lớn giá trị số (được gọi là tham số) để giúp hiểu những kết nối này giữa các từ. Các tham số này phải được đặt chính xác để mô hình ngôn ngữ hoạt động tốt.
Mạng nơ-ron học các giá trị phù hợp cho những tham số này bằng cách xem xét số lượng lớn tài liệu mẫu, theo cách tương tự cách các mô hình ngôn ngữ n-gram học được xác suất n-gram. Trong quá trình đào tạo này, mạng nơ-ron sẽ xem xét các tài liệu đào tạo và học cách dự đoán từ tiếp theo dựa trên các từ đã có trước đó.
Các mô hình này hoạt động tốt nhưng có một số nhược điểm. Dù về mặt lý thuyết, mạng nơ-ron có thể thể hiện kết nối giữa các từ xuất hiện cách xa nhau, nhưng trên thực tế, tầm quan trọng được đặt nhiều hơn vào những từ gần nhau hơn.
Quan trọng hơn, các từ trong tài liệu đào tạo phải được xử lý theo trình tự để học các giá trị phù hợp cho những tham số của mạng nơ-ron. Điều này hạn chế tốc độ đào tạo mạng nơ-ron.
Sự ra đời của transformer
Một loại mạng nơ-ron mới có tên transformer đã trình làng vào năm 2017 và tránh được những vấn đề này bằng cách xử lý tất cả từ đầu vào cùng lúc. Việc đó cho phép chúng được đào tạo song song, nghĩa là các phép tính cần thiết có thể được phân bổ trên nhiều máy tính để thực hiện cùng lúc.
Một tác dụng phụ của thay đổi này là giúp transformer được đào tạo trên nhiều tài liệu hơn so với các phương pháp tiếp cận trước đây, tạo ra những mô hình ngôn ngữ lớn hơn.
Transformer cũng học từ các ví dụ về văn bản nhưng có thể được đào tạo để giải quyết nhiều vấn đề hơn là chỉ dự đoán từ tiếp theo. Một là loại vấn đề "điền vào chỗ trống", trong đó một số từ trong văn bản đào tạo đã bị xóa. Mục tiêu ở đây là đoán những từ nào bị thiếu.
Vấn đề khác là transformer được được cung cấp một cặp câu và được yêu cầu quyết định xem câu thứ hai có nên theo sau câu đầu tiên hay không. Việc đào tạo trên các vấn đề như thế này đã khiến transformer linh hoạt và mạnh mẽ hơn so với những mô hình ngôn ngữ trước đây.
Việc sử dụng transformer đã cho phép phát triển các mô hình ngôn ngữ lớn hiện đại. Mô hình ngôn ngữ này được gọi là "lớn" một phần vì chúng được đào tạo bằng nhiều ví dụ văn bản hơn so với thế hệ trước đó.
Một số mô hình ngôn ngữ lớn này được đào tạo trên hơn 1.000 tỉ từ. Sẽ mất hơn 7.600 năm để một người trưởng thành đọc nhiều như vậy ở tốc độ trung bình. Các mô hình ngôn ngữ lớn này cũng dựa trên các mạng nơ-ron rất lớn, một số có hơn 100 tỉ tham số.
Vài năm gần đây, một thành phần bổ sung đã được thêm vào các mô hình ngôn ngữ lớn cho phép người dùng tương tác với chúng bằng lời gợi ý. Những lời gợi ý này có thể là câu hỏi hoặc hướng dẫn.
Điều này đã cho phép phát triển các hệ thống AI tạo sinh như GPT, Google Gemini và Llama của Meta Platforms. Các mô hình ngôn ngữ lớn này học cách phản hồi lời gợi ý bằng quy trình gọi là học tăng cường, tương tự cách máy tính được dạy chơi các game, chẳng hạn cờ vua.
Học tăng cường là một phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.
Ứng dụng của học tăng cường
Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.
Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.
Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.
Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.
Con người cung cấp cho mô hình ngôn ngữ các lời nhắc. Phản hồi của họ về các câu trả lời do mô hình ngôn ngữ tạo ra sẽ được thuật toán học của mô hình sử dụng để định hướng đầu ra tiếp theo. Nói cách khác, con người đóng vai trò quan trọng trong việc đào tạo và cải thiện mô hình ngôn ngữ, bằng cách cung cấp cả dữ liệu đầu vào và phản hồi về chất lượng của câu trả lời mà mô hình tạo ra.
Tạo ra tất cả những câu hỏi này và đánh giá các câu trả lời đòi hỏi rất nhiều đầu vào của con người, có thể tốn kém để đạt được.
Một cách để giảm chi phí này là tạo ra các ví dụ bằng mô hình ngôn ngữ để mô phỏng tương tác giữa người và AI. Phản hồi do AI tạo ra này sau đó được sử dụng để đào tạo hệ thống.
Tuy nhiên, việc tạo ra một mô hình ngôn ngữ lớn vẫn là công việc tốn kém. Chi phí đào tạo một số mô hình lớn gần đây ước tính lên tới hàng trăm triệu USD. Ngoài ra, còn có chi phí về môi trường, với lượng khí thải carbon dioxide liên quan đến việc tạo ra mô hình ngôn ngữ ước tính tương đương nhiều chuyến bay xuyên Đại Tây Dương.
Đây là những điều mà chúng ta sẽ cần tìm ra giải pháp trong bối cảnh cuộc cách mạng AI hiện tại vẫn chưa có dấu hiệu chậm lại.