Vì sao ‘cha đẻ AI' phải nói dối chatbot?
Muốn chatbot AI trung thực hơn với bạn không? Hãy thử nói dối nó.
Trong một tập của podcast The Diary of a CEO phát sóng gần đây, Yoshua Bengio nói với người dẫn chương trình Steven Bartlett rằng ông nhận ra các chatbot AI gần như vô dụng khi đưa ra phản hồi về ý tưởng nghiên cứu của ông, vì chúng luôn nói những điều tích cực.
“Tôi muốn lời khuyên và phản hồi trung thực. Song vì chatbot AI có xu hướng nịnh bợ, nên nó sẽ nói dối”, Yoshua Bengio nhấn mạnh.
Yoshua Bengio cho biết ông đã thay đổi chiến lược, quyết định nói dối chatbot AI bằng cách trình bày ý tưởng nghiên cứu này như thể của một đồng nghiệp. Cách đó tạo ra các phản hồi thẳng thắn hơn từ chatbot AI.
“Nếu biết đó là tôi, chatbot AI sẽ muốn làm tôi hài lòng”, ông nói.
The Diary of a CEO là podcast do doanh nhân Steven Bartlett (Anh) thực hiện. Trong podcast, ông phỏng vấn các giám đốc điều hành, nhà khoa học, chuyên gia công nghệ, nhà đầu tư và nhân vật có ảnh hưởng toàn cầu.
The Diary of a CEO tập trung vào kinh doanh, lãnh đạo, tâm lý, công nghệ và các vấn đề xã hội, với phong cách trò chuyện thẳng thắn, đào sâu vào tư duy và trải nghiệm cá nhân của khách mời. Podcast này có hàng triệu người theo dõi trên Spotify, Apple Podcasts, YouTube và thường xuyên tạo ra các cuộc thảo luận lớn trong giới công nghệ và kinh doanh.
Yoshua Bengio, giáo sư khoa học máy tính và nghiên cứu vận hành tại Đại học Montréal (Canada), được biết đến là 1 trong 3 “cha đẻ AI” cùng với Geoffrey Hinton và Yann LeCun. Năm 2018, Yoshua Bengio cùng Geoffrey Hinton và Yann LeCun nhận Giải Turing.
Giải Turing được thành lập từ năm 1966, mang tên nhà toán học, nhà tiên phong trí tuệ nhân tạo Alan Turing - người đặt nền móng cho ngành khoa học máy tính hiện đại. Đây là giải thưởng danh giá nhất trong lĩnh vực khoa học máy tính, với phần thưởng trị giá 1 triệu USD, do Hiệp hội Máy tính Mỹ trao tặng hằng năm cho những cá nhân có đóng góp đột phá, tạo ảnh hưởng lâu dài đến khoa học máy tính và công nghệ. Nhiều công trình góp phần thay đổi thế giới số ngày nay, như thuật toán mã hóa dữ liệu, giao diện đồ họa máy tính, hệ điều hành UNIX hay AI, đều gắn với các chủ nhân của giải Turing.
Tháng 6 vừa qua, Yoshua Bengio công bố việc ra mắt tổ chức phi lợi nhuận nghiên cứu an toàn AI mang tên LawZero, với mục tiêu giảm thiểu các hành vi nguy hiểm liên quan đến các mô hình tiên tiến, như nói dối và gian lận.
“Xu hướng nịnh bợ này là ví dụ rõ ràng cho thấy AI đang đi lệch so với mục tiêu mà con người mong muốn. Chúng ta thực sự không muốn các AI trở nên như vậy”, ông chia sẻ trên The Diary of a CEO.
Yoshua Bengio cũng cho rằng việc nhận phản hồi tích cực từ AI có thể khiến người dùng hình thành sự gắn bó cảm xúc với công nghệ này, từ đó tạo ra thêm nhiều vấn đề.

Các chuyên gia khác trong ngành công nghệ đã liên tục cảnh báo về việc AI có xu hướng làm hài lòng người dùng.
Tháng 9, trang Insider đưa tin các nhà nghiên cứu tại Đại học Stanford, Đại học Carnegie Mellon và Đại học Oxford đã đưa những bài viết thú nhận hành vi sai trái trên diễn đàn Reddit vào chatbot AI để xem nó đánh giá như thế nào. Kết quả cho thấy trong 42% trường hợp, chatbot AI kết luận rằng người viết không làm gì sai, trong khi những người đánh giá cho rằng họ đã cư xử không đúng.
Các công ty AI đã công khai nỗ lực giảm xu hướng nịnh bợ trong các mô hình AI của mình. Đầu năm nay, OpenAI rút lại một bản cập nhật ChatGPT mà họ cho biết đã khiến chatbot AI đưa ra các phản hồi “quá mức ủng hộ nhưng thiếu chân thực”.
Thông tin cần biết về Yoshua Bengio
Yoshua Bengio sinh năm 1964, quốc tịch Canada, từng là Giám đốc Khoa học của MILA (viện nghiên cứu học máy tại thành phố Montreal, Canada). Ông được xem là "cha đẻ AI" vì những đóng góp nền tảng về học biểu diễn và các kiến trúc mô hình đã mở đường cho sự bùng nổ của AI hiện đại.
Học biểu diễn là một nhánh quan trọng của học máy, tập trung vào việc để mô hình tự động tìm ra cách biểu diễn dữ liệu theo dạng dễ hiểu và hữu ích cho máy tính. Học máy là một nhánh của AI, cho phép máy tính tự học từ dữ liệu và cải thiện hiệu suất theo thời gian mà không cần được lập trình rõ ràng từng bước.
Trước đây, Yoshua Bengio tập trung chủ yếu vào các câu hỏi thuần nghiên cứu. Từ năm 2023 đến nay, ông chuyển sang vấn đề an toàn, đạo đức và khả năng kiểm soát AI. Yoshua Bengio thường xuyên tham gia xây dựng các khuyến nghị chính sách quốc tế về phát triển AI an toàn, đồng thời là một trong những tiếng nói có ảnh hưởng lớn về quản trị rủi ro công nghệ.
Đến năm 2025, Yoshua Bengio và các cộng sự giành Giải thưởng Nữ hoàng Elizabeth về Kỹ thuật nhờ những đóng góp đặt nền móng cho học máy hiện đại. Đây là một trong những giải thưởng uy tín toàn cầu dành cho lĩnh vực kỹ thuật và đổi mới sáng tạo, được trao tặng cho các cá nhân hoặc nhóm có những đóng góp đột phá trong kỹ thuật mà mang lại lợi ích rộng rãi cho nhân loại.
Song song với việc nghiên cứu và giảng dạy, Yoshua Bengio đang tập trung thúc đẩy hướng phát triển các hệ thống “AI có trách nhiệm”, nhằm giảm thiểu tác động tiêu cực khi công nghệ này ngày càng thâm nhập sâu vào đời sống và kinh tế toàn cầu.