Nhịp đập công nghệ

Samsung tối ưu hóa AI trên thiết bị, giảm phụ thuộc máy chủ đám mây

Cẩm Bình • 22/11/2025 08:58

Tập đoàn Samsung đang tích cực nghiên cứu để tối ưu hóa các mô hình AI, khiến chúng hoạt động hiệu quả ngay trên thiết bị (điện thoại, đồ điện gia dụng...) thay vì phụ thuộc vào máy chủ đám mây.

Cách tiếp cận này được gọi là Edge AI – thuật toán trí tuệ nhân tạo chạy cục bộ chứ không cần gửi dữ liệu về máy chủ. Làm vậy rút ngắn thời gian xử lý dữ liệu, tăng tốc độ lẫn tính bảo mật.

Screenshot 2025-11-21 195351 — Samsung ôm tham vọng tích hợp Edge AI lên mọi sản phẩm của hãng - Ảnh: TNW

Phương pháp khiến AI chạy cục bộ trên thiết bị

Cốt lõi của AI tạo sinh là mô hình ngôn ngữ lớn (LLM). Muốn triển khai Edge AI trước hết phải tiến hành nén và tối ưu hóa LLM. Tiến sĩ Ham Mung-joo (Trung tâm AI thuộc Samsung) cho biết: “Chạy một mô hình cực kì tiên tiến, thực hiện hàng tỷ phép tính trực tiếp trên điện thoại thông minh hoặc máy tính xách tay sẽ nhanh chóng làm hao pin, tăng nhiệt độ và làm chậm thời gian phản hồi, ảnh hưởng xấu đến trải nghiệm người dùng”.

LLM tính toán bằng cách sử dụng nhiều biển diễn số vô cùng phức tạp. Công nghệ nén đơn giản hóa biểu diễn số thành định dạng số nguyên hiệu quả hơn. Ông Ham giải thích: “Ví dụ, chuyển đổi các phép tính dấu phẩy động 32 bit sang số nguyên 8 bit hoặc thậm chí 4 bit giúp giảm đáng kể mức sử dụng bộ nhớ và khối lượng tính toán, qua đó tăng tốc độ phản hồi”.

Tuy nhiên đơn giản hóa biểu diễn số có thể làm giảm độ chính xác tổng thể của mô hình. Để cân bằng giữa tốc độ với chất lượng, đội ngũ nghiên cứu của Samsung phát triển vài thuật toán cùng công cụ đo lường - hiệu chỉnh sau khi nén (tất cả đều mới ở giai đoạn nguyên mẫu). Ngoài ra tập đoàn còn cải biến công nghệ nén cho phù hợp với từng sản phẩm thực tế, vì mỗi mẫu thiết bị đều có kiến trúc bộ nhớ và cấu hình tính toán riêng.

Screenshot 2025-11-21 195406 — Công nghệ nén đơn giản hóa biểu diễn số thành định dạng số nguyên hiệu quả hơn - Ảnh: Samsung Newsroom

Thậm chí với LLM nén hiệu suất cao, trải nghiệm người dùng vẫn phụ thuộc vào cách mô hình chạy trên thiết bị. Samsung đang thiết lập trình chạy thời gian thực (runtime) giúp tối ưu hóa sử dụng bộ nhớ và tài nguyên tính toán của thiết bị trong quá trình AI hoạt động.

“Khi một mô hình chạy trên nhiều bộ xử lý – CPU, GPU hoặc NPU, trình chạy sẽ tự động gán từng thao tác cho chip tối ưu, giảm thiểu truy cập bộ nhớ để tăng hiệu suất AI tổng thể”, theo ông Ham. Samsung hiện có khả năng chạy mô hình sinh 30 tỷ tham số - thường đòi hỏi dung lượng hơn 16Gb - trên bộ nhớ chưa đến 3GB.

Tham vọng hơn, Samsung muốn tạo ra kiến trúc mô hình AI - thiết kế cơ bản của bất cứ hệ thống trí tuệ nhân tạo nào - mới phù hợp chạy cục bộ. Mục tiêu là xây dựng các kiến trúc thân thiện với thiết bị ngay từ đầu.

Ngày nay hầu hết LLM đều dựa vào kiến trúc Transformer – phân tích cả câu để xác định mối quan hệ giữa các từ. Đây là phương pháp vượt trội giúp hiểu ngữ cảnh, nhưng có lại một hạn chế lớn: nhu cầu tính toán tăng mạnh khi câu dài hơn. Samsung cố gắng khắc phục hạn chế khi xây dựng kiến trúc mới.

Lợi ích của Edge AI

Chuyển xử lý tác vụ AI từ máy chủ đám mây về thiết bị đem lại nhiều lợi ích. Đầu tiên, mô hình phản hồi người dùng nhanh hơn vì dữ liệu không cần phải gửi đến máy chủ và ngược lại. Dữ liệu không truyền đi còn giúp tăng cường độ bảo mật lẫn đảm bảo quyền riêng tư. Ngoài ra thuật toán trí tuệ nhân tạo chạy cục bộ cho phép người dùng truy cập dịch vụ AI mà chẳng cần internet. Cũng theo một nghiên cứu, chạy AI trên Samsung Galaxy S24 có thể giảm đáng kể mức tiêu thụ năng lượng và nước so với chạy trên máy chủ đám mây.

Vì những lợi ích trên, Samsung không ngừng mở rộng hỗ trợ AI chạy cục bộ trên thiết bị, từ dòng điện thoại Galaxy S24 đến nhiều đồ điện tử gia dụng ra mắt năm 2025. Người dùng có thể bật cài đặt chỉ xử lý dữ liệu trên thiết bị đối với một số tính năng trí tuệ nhân tạo nhất định. Tiến bộ công nghệ trong tương lai sẽ giúp tăng số thiết bị không phụ thuộc máy chủ đám mây.