Hotline quảng cáo: 096 2445664 Hotline nội dung: 0934.999945

Nhịp đập khoa học

Mô hình ngôn ngữ lớn đằng sau ChatGPT và các chabot AI khác thực sự hoạt động như thế nào?

Sơn Vân • 11/12/2024 19:15

Các hệ thống trí tuệ nhân tạo (AI) gọi là mô hình ngôn ngữ lớn, chẳng hạn GPT của OpenAI, được ca ngợi là sự khởi đầu cho kỷ nguyên công nghệ mới. Các mô hình ngôn ngữ lớn này thực sự có tác động đáng kể đến cách chúng ta sống và làm việc trong tương lai.

Tuy nhiên, chúng không phải đột nhiên xuất hiện và thực tế đã có một lịch sử lâu đời hơn nhiều so với những gì hầu hết mọi người nhận ra.

Mô hình ngôn ngữ lớn là một loại mô hình ngôn ngữ cụ thể, được hiểu là biểu diễn toán học của ngôn ngữ dựa trên xác suất. Nếu từng sử dụng tính năng dự đoán từ trên smartphone hoặc đặt câu hỏi cho loa thông minh, gần như chắc chắn bạn đã sử dụng một mô hình ngôn ngữ. Song, mô hình ngôn ngữ lớn thực sự hoạt động như thế nào và cần gì để tạo ra chúng?

Các mô hình ngôn ngữ được thiết kế để ước tính khả năng xuất hiện của một chuỗi từ cụ thể. Đây là lúc xác suất phát huy vai trò. Ví dụ, mô hình ngôn ngữ tốt cho tiếng Anh sẽ gán xác suất cao cho một câu hoàn chỉnh như the old black cat slept soundly (con mèo đen già ngủ say) và xác suất thấp cho chuỗi từ ngẫu nhiên như library a or the quantum some (thư viện a hoặc lượng tử nào đó).

Hầu hết mô hình ngôn ngữ cũng có thể đảo ngược quá trình này để tạo ra văn bản có vẻ hợp lý. Tính năng dự đoán từ trên smartphone sử dụng các mô hình ngôn ngữ để dự đoán cách bạn muốn hoàn thành văn bản khi đang gõ.

Phương pháp đầu tiên để tạo ra mô hình ngôn ngữ được mô tả vào năm 1951 bởi Claude Shannon, nhà nghiên cứu làm việc tại hãng công nghệ IBM (Mỹ). Phương pháp tiếp cận của ông dựa trên các chuỗi từ được gọi là n-gram, chẳng hạn old black (con mèo đen già) hoặc cat slept soundly (con mèo ngủ say).

Xác suất n-gram xuất hiện trong văn bản được ước tính bằng cách tìm kiếm các ví dụ trong tài liệu có sẵn. Sau đó, các xác suất toán học này được kết hợp để tính xác suất tổng thể của những chuỗi từ dài hơn, chẳng hạn câu hoàn chỉnh.

Việc ước tính xác suất cho các n-gram trở nên khó khăn hơn khi n-gram dài hơn, nên việc ước tính chính xác xác suất cho 4-gram (chuỗi gồm 4 từ) khó hơn nhiều so với bi-gram (chuỗi gồm 2 từ). Vì vậy, các mô hình ngôn ngữ ban đầu thường dựa trên các n-gram ngắn.

Tuy nhiên, điều này khiến chúng thường gặp khó khăn trong việc thể hiện mối liên hệ giữa các từ cách xa nhau, có thể dẫn đến việc phần đầu và phần cuối của một câu không khớp nhau khi mô hình ngôn ngữ được dùng để tạo ra một câu.

Để tránh vấn đề này, các nhà nghiên cứu đã tạo ra các mô hình ngôn ngữ dựa trên mạng nơ-ron. Đó là hệ thống trí tuệ nhân tạo (AI) được mô phỏng theo cách não người hoạt động. Các mô hình ngôn ngữ này có thể biểu diễn kết nối giữa những từ có thể không gần nhau. Mạng nơ-ron dựa vào số lượng lớn giá trị số (được gọi là tham số) để giúp hiểu những kết nối này giữa các từ. Các tham số này phải được đặt chính xác để mô hình ngôn ngữ hoạt động tốt.

Mạng nơ-ron học các giá trị phù hợp cho những tham số này bằng cách xem xét số lượng lớn tài liệu mẫu, theo cách tương tự cách các mô hình ngôn ngữ n-gram học được xác suất n-gram. Trong quá trình đào tạo này, mạng nơ-ron sẽ xem xét các tài liệu đào tạo và học cách dự đoán từ tiếp theo dựa trên các từ đã có trước đó.

Các mô hình này hoạt động tốt nhưng có một số nhược điểm. Dù về mặt lý thuyết, mạng nơ-ron có thể thể hiện kết nối giữa các từ xuất hiện cách xa nhau, nhưng trên thực tế, tầm quan trọng được đặt nhiều hơn vào những từ gần nhau hơn.

Quan trọng hơn, các từ trong tài liệu đào tạo phải được xử lý theo trình tự để học các giá trị phù hợp cho những tham số của mạng nơ-ron. Điều này hạn chế tốc độ đào tạo mạng nơ-ron.

mo-hinh-ngon-ngu-lon-dang-sau-chatgpt-va-cac-chabot-ai-khac-thuc-su-hoat-dong-nhu-the-nao.jpg — Các mô hình ngôn ngữ lớn ngày nay được đào tạo trên lượng dữ liệu rất lớn - Ảnh: Ascannio

Sự ra đời của transformer

Một loại mạng nơ-ron mới có tên transformer đã trình làng vào năm 2017 và tránh được những vấn đề này bằng cách xử lý tất cả từ đầu vào cùng lúc. Việc đó cho phép chúng được đào tạo song song, nghĩa là các phép tính cần thiết có thể được phân bổ trên nhiều máy tính để thực hiện cùng lúc.

Một tác dụng phụ của thay đổi này là giúp transformer được đào tạo trên nhiều tài liệu hơn so với các phương pháp tiếp cận trước đây, tạo ra những mô hình ngôn ngữ lớn hơn.

Transformer cũng học từ các ví dụ về văn bản nhưng có thể được đào tạo để giải quyết nhiều vấn đề hơn là chỉ dự đoán từ tiếp theo. Một là loại vấn đề "điền vào chỗ trống", trong đó một số từ trong văn bản đào tạo đã bị xóa. Mục tiêu ở đây là đoán những từ nào bị thiếu.

Vấn đề khác là transformer được được cung cấp một cặp câu và được yêu cầu quyết định xem câu thứ hai có nên theo sau câu đầu tiên hay không. Việc đào tạo trên các vấn đề như thế này đã khiến transformer linh hoạt và mạnh mẽ hơn so với những mô hình ngôn ngữ trước đây.

Việc sử dụng transformer đã cho phép phát triển các mô hình ngôn ngữ lớn hiện đại. Mô hình ngôn ngữ này được gọi là "lớn" một phần vì chúng được đào tạo bằng nhiều ví dụ văn bản hơn so với thế hệ trước đó.

Một số mô hình ngôn ngữ lớn này được đào tạo trên hơn 1.000 tỉ từ. Sẽ mất hơn 7.600 năm để một người trưởng thành đọc nhiều như vậy ở tốc độ trung bình. Các mô hình ngôn ngữ lớn này cũng dựa trên các mạng nơ-ron rất lớn, một số có hơn 100 tỉ tham số.

Vài năm gần đây, một thành phần bổ sung đã được thêm vào các mô hình ngôn ngữ lớn cho phép người dùng tương tác với chúng bằng lời gợi ý. Những lời gợi ý này có thể là câu hỏi hoặc hướng dẫn.

Điều này đã cho phép phát triển các hệ thống AI tạo sinh như GPT, Google Gemini và Llama của Meta Platforms. Các mô hình ngôn ngữ lớn này học cách phản hồi lời gợi ý bằng quy trình gọi là học tăng cường, tương tự cách máy tính được dạy chơi các game, chẳng hạn cờ vua.

Học tăng cường là một phương pháp học máy, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác nhân tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.

Ứng dụng của học tăng cường

Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.

Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.

Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.

Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.

Con người cung cấp cho mô hình ngôn ngữ các lời nhắc. Phản hồi của họ về các câu trả lời do mô hình ngôn ngữ tạo ra sẽ được thuật toán học của mô hình sử dụng để định hướng đầu ra tiếp theo. Nói cách khác, con người đóng vai trò quan trọng trong việc đào tạo và cải thiện mô hình ngôn ngữ, bằng cách cung cấp cả dữ liệu đầu vào và phản hồi về chất lượng của câu trả lời mà mô hình tạo ra.

Tạo ra tất cả những câu hỏi này và đánh giá các câu trả lời đòi hỏi rất nhiều đầu vào của con người, có thể tốn kém để đạt được.

Một cách để giảm chi phí này là tạo ra các ví dụ bằng mô hình ngôn ngữ để mô phỏng tương tác giữa người và AI. Phản hồi do AI tạo ra này sau đó được sử dụng để đào tạo hệ thống.

Tuy nhiên, việc tạo ra một mô hình ngôn ngữ lớn vẫn là công việc tốn kém. Chi phí đào tạo một số mô hình lớn gần đây ước tính lên tới hàng trăm triệu USD. Ngoài ra, còn có chi phí về môi trường, với lượng khí thải carbon dioxide liên quan đến việc tạo ra mô hình ngôn ngữ ước tính tương đương nhiều chuyến bay xuyên Đại Tây Dương.

Đây là những điều mà chúng ta sẽ cần tìm ra giải pháp trong bối cảnh cuộc cách mạng AI hiện tại vẫn chưa có dấu hiệu chậm lại.

Bài liên quan

Chuyên gia: Trung Quốc chậm hơn Mỹ 1 năm về mô hình ngôn ngữ lớn, khoảng cách này là đáng kể

Theo chuyên gia, Trung Quốc vẫn chậm hơn Mỹ khoảng một năm về mô hình ngôn ngữ lớn và phải cố gắng hơn nữa để bắt kịp sau khi OpenAI ra mắt o1.

Đọc tiếp

Trưởng bộ phận sản phẩm OpenAI chia sẻ 5 mẹo sử dụng ChatGPT hữu ích có thể bạn chưa biết

ChatGPT bước vào giai đoạn ‘khủng hoảng’ tuổi lên hai

3 sản phẩm AI tạo sinh được dùng nhiều nhất ở Trung Quốc: ChatGPT và Google Gemini xếp sau Ernie Bot

(0) Bình luận

Xếp theo:

Đọc thêm Nhịp đập khoa học

Nổi bật Một thế giới

Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

3 giờ trước Theo dòng thời sự

“Nhiệm vụ quan trọng của tất cả cán bộ, nhân viên Đại sứ quán Lào ở Việt Nam là phải làm thế nào để Việt Nam hiểu Lào và Lào hiểu Việt Nam; phải giữ gìn quan hệ đặc biệt Lào - Việt Nam mãi luôn là mối quan hệ tốt nhất”, đó là lời căn dặn của cố Chủ tịch Khamtay Siphandone lúc sinh thời đối với cán bộ, nhân viên Đại sứ quán Lào tại Việt Nam.

Ủy ban Kiểm tra Trung ương đề nghị kỷ luật nhiều cán bộ

Trong các ngày 31.3 và 3.4, tại Hà Nội, Ủy ban Kiểm tra Trung ương đã họp Kỳ thứ 55.
OpenAI đầu tư vào công ty bảo mật để chống lại chính mối đe dọa từ chính AI

Khi trí tuệ nhân tạo (AI) phát triển nhanh chóng, nó không chỉ mở ra những khả năng mới cho...
Tổng Bí thư Tô Lâm viếng nguyên Chủ tịch nước Lào Khamtay Siphandone

Ngày 3.4, được tin đại tướng Khamtay Siphandone, nguyên Chủ tịch Đảng Nhân dân Cách mạng Lào,...

Đừng bỏ lỡ

“Bỏ túi” cách bảo vệ sức khỏe tiết kiệm mà hiệu quả nhất dành cho gia đình 6 người

38 phút trước Thông tin Y học

Chi phí điều trị bệnh là không hề rẻ, có thể tiêu tốn từ vài triệu đến hàng trăm triệu đồng, bao gồm tiền thuốc, xét nghiệm, giường bệnh và chi phí chăm sóc. Đặc biệt, đối với những gia đình có người già và trẻ nhỏ - những đối tượng có nguy cơ cao, nếu cùng nhiễm bệnh sẽ khiến con số này tăng gấp nhiều lần, tạo áp lực lớn về tài chính lẫn tinh thần. Vậy sẽ như thế nào nếu mỗi gia đình đều có một “sổ tiết kiệm sức khỏe” - một giải pháp mới giúp tiết kiệm chi phí điều trị đến 16 lần?
BIDV tiếp tục được định hạng tín nhiệm ở mức cao nhất Việt Nam

43 phút trước Thông tin và phát triển

Ngày 19.3, tổ chức định hạng tín nhiệm Moody’s đã phát hành bản báo cáo định hạng tín nhiệm mới nhất của BIDV. Theo đó, các định hạng tiền gửi nội tệ/ngoại tệ dài hạn và định hạng nhà phát hành của BIDV vẫn được duy trì ở mức ngang bằng so với mức định hạng Chính phủ Việt Nam và thuộc nhóm các ngân hàng có định hạng tín nhiệm cao nhất tại thị trường Việt Nam.
Bộ Ngoại giao Việt Nam lên tiếng về mức thuế đối ứng của Mỹ

một giờ trước Kinh tế - đầu tư - dự án

Việt Nam lấy làm tiếc trước việc Mỹ công bố quyết định áp mức thuế đối ứng lên các mặt hàng xuất khẩu của Việt Nam sang Mỹ.
YouTube giới thiệu loạt tính năng mới cho Shorts, AppLovin tham gia mua lại TikTok

một giờ trước Thế giới số

YouTube hôm 3.4 đã công bố các công cụ tạo video mới dành cho Shorts, nguồn video dạng ngắn của nền tảng này, cạnh tranh trực tiếp với TikTok.
Mỹ vẫn giữ cam kết với NATO, nhưng yêu cầu tăng chi tiêu quốc phòng

một giờ trước Quốc tế

Hãng Reuters dẫn lời Ngoại trưởng Mỹ Marco Rubio tuyên bố nước này vẫn giữ nguyên cam kết với NATO, nhưng mong đợi các đồng minh châu Âu chi tiêu cho quốc phòng nhiều hơn.

Mới nhất

Ủy ban Kiểm tra Trung ương đề nghị kỷ luật nhiều cán bộ

38 phút trước Theo dòng thời sự

Trong các ngày 31.3 và 3.4, tại Hà Nội, Ủy ban Kiểm tra Trung ương đã họp Kỳ thứ 55.
OpenAI đầu tư vào công ty bảo mật để chống lại chính mối đe dọa từ chính AI

2 giờ trước Khoa học - công nghệ

Khi trí tuệ nhân tạo (AI) phát triển nhanh chóng, nó không chỉ mở ra những khả năng mới cho doanh nghiệp mà còn cung cấp cho các tin tặc một bộ công cụ ngày càng tinh vi.
Chủ tịch Khamtay Siphandone: Phải giữ gìn quan hệ đặc biệt Lào - Việt mãi là quan hệ tốt nhất

3 giờ trước Theo dòng thời sự

“Nhiệm vụ quan trọng của tất cả cán bộ, nhân viên Đại sứ quán Lào ở Việt Nam là phải làm thế nào để Việt Nam hiểu Lào và Lào hiểu Việt Nam; phải giữ gìn quan hệ đặc biệt Lào - Việt Nam mãi luôn là mối quan hệ tốt nhất”, đó là lời căn dặn của cố Chủ tịch Khamtay Siphandone lúc sinh thời đối với cán bộ, nhân viên Đại sứ quán Lào tại Việt Nam.
Không khí lạnh sắp tràn về, miền Bắc mưa to, rét đậm

5 giờ trước Theo dòng thời sự

Thời tiết ngày 4.4, theo Trung tâm Dự báo khí tượng thủy văn quốc gia, miền Bắc sắp đón không khí lạnh tăng cường, nhưng với cường độ yếu, chủ yếu gây mưa nhỏ. Mức nhiệt dao động từ 21-22 độ C.
Ngày hội thanh trà Bình Minh: 135 món ẩm thực chờ xác lập kỷ lục

14 giờ trước Du lịch

Ngày 3.4, UBND tỉnh Vĩnh Long phê duyệt kế hoạch tổ chức Ngày hội thanh trà Bình Minh, công diễn xác lập kỷ lục Việt Nam đối với 135 món ẩm thực được chế biến từ trái thanh trà của thị xã Bình Minh.