Apple tìm các kỹ sư làm việc với generative AI trước khi ra mắt tai nghe thực tế hỗn hợp

Thế giới số - Ngày đăng : 10:45, 02/06/2023

Đầu năm nay, Apple đã bổ sung hàng tá công việc mới tập trung vào các kỹ sư và nhà khoa học làm việc với trí tuệ nhân tạo (AI).

Để thêm phần thú vị, công ty gần đây thêm vị trí tuyển dụng mới vào trang web của mình, lần này đặc biệt tìm kiếm các kỹ sư phần mềm có kiến thức về generative AI và môi trường thực tế hỗn hợp.

Generative AI là loại trí tuệ nhân tạo mà máy tính được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu hoặc học máy trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn.

Nhà báo Mark Gurman của trang Bloomberg lưu ý thông tin tuyển dụng vị trí mới nêu rõ rằng kỹ sư cần phải có kinh nghiệm về học máy và quan tâm đến chatbot AI, generative AI. Những công nghệ như vậy đứng sau các công cụ như ChatGPT, gần đây đã trở nên phổ biến.

Trong cuộc gọi gần đây với các nhà đầu tư, Giám đốc điều hành Apple - Tim Cook đồng ý generative AI “không chỉ là chủ đề của thời đại” và nói rằng công nghệ như vậy “chắc chắn rất thú vị”. Song đồng thời, Tim Cook cũng cảnh báo rằng những AI như vậy có “các vấn đề cần được giải quyết”.

Tờ New York Times đưa tin vào đầu năm nay rằng các kỹ sư của Apple đang thử nghiệm “các ý tưởng tạo ngôn ngữ” cho Siri.

Trang 9to5Mac tìm thấy các tài liệu tham khảo để chứng thực báo cáo này trong mã tvOS 16.4, phần mềm hỗ trợ cả Apple TV và loa thông minh HomePod của Apple. Tuy nhiên, mọi thứ vẫn còn thử nghiệm vào thời điểm này và không rõ khi nào chúng ta sẽ thấy Siri dựa trên AI mới ngoài đời thực.

Siri dựa trên AI có lẽ còn lâu mới xuất hiện

Trong khi Apple làm việc với AI không phải là điều bất ngờ, việc tuyển dụng công việc mới này làm cho tin đồn khác trở nên có cơ sở rằng công ty sắp công bố tai nghe thực tế hỗn hợp đầu tiên của mình. Mô tả công việc cho biết kỹ sư "sẽ tận dụng các mô hình đổi mới để xây dựng ứng dụng trên các công nghệ tiên tiến nhất của Apple, đồng thời phát triển chuyên môn trong thực tế tăng cường và thực tế ảo (AR/VR)".

Tai nghe thực tế hỗn hợp đầu tiên của Apple (dự kiến mang tên Reality Pro) sẽ là sản phẩm siêu cao cấp có giá khoảng 3.000 USD. Reality Pro sẽ có các thông số kỹ thuật cao cấp, bao gồm cả “cấu hình ba màn hình đổi mới” với hai tấm nền Micro-LED 4K. Nó sẽ cho phép người dùng chuyển đổi giữa chế độ AR và VR, tính năng sẽ không thể thiếu trong hệ điều hành xrOS.

Vào tháng 1, trang The Information đưa tin Apple muốn người dùng có thể tạo ứng dụng riêng trên tai nghe bằng cách sử dụng Siri. Generative AI sẽ biến điều này thành có thể.

Tai nghe thực tế hỗn hợp dự kiến sẽ được giới thiệu hôm 5.6 tại WWDC (Hội nghị các nhà phát triển toàn cầu) 2023, nhưng phiên bản Siri mới dựa trên các mô hình AI có thể mất nhiều thời gian hơn để xuất hiện.

Apple trở nên tụt hậu về AI như thế nào sau khi tung ra Siri?

Apple là gã khổng lồ công nghệ được biết đến với thiết kế bóng bẩy, công nghệ tiên tiến và các sản phẩm tiêu dùng sáng tạo. Song khi nói đến AI, đặc biệt là Siri, Apple từ người dẫn đầu đã trở nên tụt hậu.

Các công ty như Google, Microsoft (đầu tư hàng tỉ USD vào OpenAI) đã và đang thể hiện những tiến bộ đáng kinh ngạc, trong khi những nỗ lực của Apple ở lĩnh vực AI tương đối mờ nhạt.

Siri được giới thiệu với thế giới vào 2011, cách đây 12 năm, và được ca ngợi vào thời điểm đó như bước đột phá trong công nghệ AI. Song trong những năm qua, Siri đã không phát huy hết tiềm năng của nó. Dù Siri đã được cải tiến kể từ khi ra mắt, những nỗ lực AI của Google và OpenAI làm lu mờ trợ lý ảo này rất nhiều.

Một trong những hạn chế lớn nhất của Siri là thiếu khả năng xử lý ngôn ngữ tự nhiên. Siri gặp khó khăn trong việc hiểu ngữ cảnh của cuộc trò chuyện và chỉ có thể thực hiện các tác vụ đơn giản một cách đáng tin cậy như đặt lời nhắc hoặc hẹn giờ. Ngay cả sau ngần ấy năm, việc yêu cầu Siri trả lời chính xác một câu hỏi hoặc đọc chính tả đoạn văn bản và gửi cho đúng người không đảm bảo sẽ thành công.

Ngược lại, Google Assistant và ChatGPT của OpenAI (được tích hợp vào Bing cùng các ứng dụng khác của Microsoft) có khả năng xử lý ngôn ngữ tự nhiên tiên tiến. Điều này cho phép chúng hiểu được các sắc thái của ngôn ngữ con người và phản ứng tương ứng.

Chẳng hạn, khi hỏi Bing Chat liệt kê những điều có thể làm mà Siri không thể, nó đề cập đến việc tóm tắt các tình huống chính trị phức tạp hoặc được sử dụng với các công cụ tìm kiếm khác như DuckDuckGo.

Khi được hỏi về những điều có thể làm được mà Bing Chat không thể, Siri trả lời bằng hướng dẫn về cách khởi chạy Bing bằng cách nói "Mở Bing". Dù cho điều này đúng, vì Bing không thể khởi chạy các ứng dụng trên iPhone, nhưng Siri đã bỏ lỡ điểm chính của câu hỏi.

Một lĩnh vực khác mà Siri chưa đủ tốt là tích hợp ứng dụng của bên thứ ba. Siri chỉ có thể thực hiện các tác vụ trong phạm vi hệ sinh thái Apple. Google Assistant và ChatGPT được tích hợp với nhiều ứng dụng khác nhau, nên có thể thực hiện nhiều tác vụ hơn.

Hệ sinh thái khép kín của Apple cũng giới hạn lượng dữ liệu mà Siri có quyền truy cập. Việc thiếu dữ liệu này khiến Siri khó học hỏi và cải thiện theo thời gian, vì các thuật toán máy học yêu cầu lượng dữ liệu lớn để hoạt động hiệu quả.

Dù nhiều người có thể tranh luận về đạo đức trong cách Google và OpenAI sử dụng dữ liệu để huấn luyện các mô hình AI, không ai có thể phản đối việc họ tiếp cận lượng dữ liệu khổng lồ để giúp cải thiện liên tục các khả năng của AI.

Hơn nữa, Apple đã chậm chạp trong việc nắm bắt các công nghệ nguồn mở, vốn rất cần thiết cho nghiên cứu và phát triển AI. Công nghệ nguồn mở cho phép các nhà phát triển cộng tác và đóng góp cho một dự án, dẫn đến các chu kỳ phát triển nhanh hơn và hiệu quả hơn.

Song Apple có lịch sử về giữ bí mật, gồm cả các dự án AI, điều này khiến họ không thể tiếp cận các nghiên cứu tiên tiến trong nhiều năm. Điều đó đang dần thay đổi. Trong năm 2015, Apple đã không công bố bất kỳ tài liệu nghiên cứu nào về AI. Ngày nay, Apple có một trang web chia sẻ công khai khoảng 370 bài viết mà công ty xuất bản kể từ năm 2017. Tuy nhiên, Google, công ty có lịch sử lâu đời về sự tham gia của nguồn mở, đã xuất bản hàng trăm bài viết nghiên cứu về AI hàng năm.

Dù Apple cũng tham gia vào các cộng đồng như Hugging Face, nơi các nhà nghiên cứu AI chia sẻ các mô hình mà họ sử dụng để đào tạo các ứng dụng AI, sự tham gia của nhà sản xuất iPhone ở đó tương đối ít. Apple đã chia sẻ 11 mô hình, so với 245 của Microsoft và 587 của Google. Nhiều đóng góp của Apple cho các dự án mã nguồn mở AI lớn khác, bao gồm TensorFlow (dự án có nguồn gốc từ Google) và PyTorch (nguồn gốc từ Facebook), được nhắm đến những thay đổi cho phép nhà phát triển chạy các công nghệ này trên máy Mac.

Dù điều đó hữu ích (đặc biệt là để bán máy Mac cho các nhà phát triển AI), nhưng đó không phải là kiểu chia sẻ mang tính hợp tác mà cộng đồng nguồn mở dựa vào.

Dấu hiệu cho thấy sự phát triển của Siri trở nên trì trệ và bị cô lập là một số kỹ sư đã rời công ty để làm việc trên loại mô hình ngôn ngữ lớn như ở OpenAI, trang The Information đưa tin vào tháng trước.

Là nhà phân tích công nghệ đã theo dõi Apple trong gần ba thập kỷ và từng làm việc tại đó, Michael Gartenberg cho rằng các chiến lược AI của công ty cũ, đặc biệt là với Siri, không thông minh lắm.

Michael Gartenberg từng là cựu Giám đốc tiếp thị cấp cao của Apple và hiện là cổ đông. Ông đã theo dõi và đánh giá Apple trong gần ba thập kỷ với tư cách nhà phân tích nghiên cứu thị trường tại Gartner, Jupiter Research và Altimeter Group.

Michael Gartenberg đưa ra ba lời khuyên cho Apple để giải quyết vấn đề phát triển của Siri:

1. Mở rộng khả năng của Siri ngoài các lệnh cơ bản: Apple nên đầu tư vào việc xây dựng khả năng của Siri để xử lý các tác vụ phức tạp hơn, chẳng hạn như đặt lịch hẹn, đặt chỗ trước và đặt món ăn.

2. Cải thiện khả năng xử lý ngôn ngữ tự nhiên của Siri: Khả năng xử lý ngôn ngữ tự nhiên hiện tại của Siri kém tiên tiến hơn so với Google Assistant hoặc ChatGPT. Apple có thể đầu tư vào việc cải thiện khả năng hiểu ngôn ngữ của Siri, giúp người dùng tương tác với trợ lý giọng nói dễ dàng hơn.

3. Mở nền tảng của Siri: Lẽ ra Apple nên làm điều này từ nhiều năm trước. Cho phép phần mềm của các công ty không phải Apple tích hợp với Siri khiến nó trở nên hữu ích hơn rất nhiều, từ đó khuyến khích sử dụng nhiều hơn, giúp cải thiện Siri. Bằng cách mở nền tảng của Siri, Apple cũng có thể khuyến khích các nhà phát triển tạo ra các ứng dụng sáng tạo và phức tạp hơn sử dụng khả năng nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên của Siri.

Theo trang The Information, một số người trong cuộc nói rằng Apple đang làm việc trên tất cả điều trên và đang lên kế hoạch phát hành một Siri mới, được cải tiến trong phiên bản iOS tương lai.

Sơn Vân