Cerebra tung 7 mô hình mã nguồn mở giống GPT để cộng đồng nghiên cứu và dùng miễn phí
Nhịp đập khoa học - Ngày đăng : 01:00, 29/03/2023
GPT (Generative Pre-training Transformer) là mô hình ngôn ngữ lớn do nhà nghiên cứu AI có tên Alec Radford viết, sau đó được công ty khởi nghiệp OpenAI (Mỹ) phát triển làm nền tảng cho ChatGPT và gần đây nâng cấp lên phiên bản GPT-4 mạnh mẽ.
Có trụ sở tại Thung lũng Silicon (Mỹ), Cerebras Systems đã phát hành 7 mô hình, tất cả đều được đào tạo trên siêu máy tính AI có tên Andromeda, gồm các mô hình ngôn ngữ nhỏ hơn 111 triệu tham số cho đến một mô hình ngôn ngữ lớn hơn với 13 tỉ tham số.
Andrew Feldman, người sáng lập và Giám đốc điều hành Cerebras Systems, cho biết: “Hiện nay có một phong trào lớn để đóng lại những gì được chia sẻ về mã nguồn mở trong AI. Điều này không ngạc nhiên khi có rất nhiều tiền đang được đầu tư vào lĩnh vực này. Sự phấn khích trong cộng đồng và sự tiến bộ mà chúng ta đạt được phần lớn là vì mã nguồn mở trong AI được chia sẻ rộng rãi”.
Các mô hình với nhiều tham số hơn có thể thực hiện các chức năng generative (tạo sinh) phức tạp hơn.
Ví dụ, chatbot ChatGPT của OpenAI ra mắt vào tháng 11.2022 với 175 tỉ tham số, có thể tạo thơ, đơn xin việc và thôi việc, sách điện tử, mã phần mềm… Điều này giúp thu hút sự quan tâm và tài trợ lớn cho AI trên diện rộng hơn.
Cerebras Systems nói các mô hình nhỏ hơn có thể được triển khai trên smartphone hoặc loa thông minh, trong khi các mô hình lớn hơn chạy trên PC hoặc máy chủ, dù các tác vụ phức tạp như tóm tắt đoạn văn lớn yêu cầu các mô hình lớn hơn.
Tuy nhiên, Karl Freund, nhà tư vấn chip tại công ty Cambrian AI, cho biết mô hình lớn hơn không phải lúc nào cũng tốt hơn.
Karl Freund lý giải: “Đã có một số bài viết thú vị được xuất bản cho thấy một mô hình nhỏ hơn có thể chính xác nếu được bạn huấn luyện nhiều hơn. Vì vậy, có sự đánh đổi giữa mô hình lớn hơn và được đào tạo tốt hơn".
Andrew Feldman cho biết mô hình lớn nhất của ông mất hơn một tuần để huấn luyện, công việc thường có thể mất vài tháng, nhờ kiến trúc của Cerebras Systems, bao gồm chip có kích thước bằng chiếc đĩa ăn được chế tạo để huấn luyện AI.
Hầu hết mô hình AI ngày nay đều được huấn luyện trên chip của Nvidia, nhưng ngày càng có nhiều công ty khởi nghiệp như Cerebras Systems đang cố gắng giành thị phần trong thị trường đó.
Theo Andrew Feldman, các mô hình được huấn luyện trên máy Cerebras Systems cũng có thể được sử dụng trên các hệ thống Nvidia để huấn luyện hoặc tùy chỉnh thêm.
Có trụ sở tại thành phố Santa Clara (bang California, Mỹ), Nvidia đã thống trị lĩnh vực bán chip được sử dụng để phát triển các công nghệ generative AI.
Generative AI là loại trí tuệ nhân tạo mà máy tính được lập trình để tự động tạo ra nội dung mới, như văn bản, hình ảnh, âm thanh và video. Nó khác với các hệ thống AI khác như máy học sâu (deep learning) hoặc học máy (machine learning) trong việc dự đoán kết quả từ dữ liệu đã có sẵn. Thay vì dựa trên dữ liệu huấn luyện, hệ thống generative AI có khả năng tự tạo ra dữ liệu mới và phong phú hơn. Các ví dụ của generative AI bao gồm các mô hình ngôn ngữ tự động tạo văn bản, các hệ thống nhận dạng hình ảnh, video và âm thanh.
Những công nghệ mới này dựa trên việc sử dụng hàng ngàn chip Nvidia cùng lúc để huấn luyện hệ thống AI trên kho dữ liệu khổng lồ. Ví dụ, Microsoft đã xây dựng một hệ thống với hơn 10.000 chip Nvidia cho OpenAI để sử dụng trong việc phát triển các công nghệ làm nền tảng cho ChatGPT, cụ thể là GPT.
Dù phải đối mặt với sự cạnh tranh trên thị trường chip AI từ AMD và một số công ty khởi nghiệp, Nvidia chiếm hơn 80% thị phần chip được sử dụng trong việc huấn luyện hệ thống AI.
Sự bùng nổ về AI đã giúp cổ phiếu Nvidia tăng mạnh trong năm 2023. Với giá trị vốn hóa thị trường hiện là 647 tỉ USD, Nvidia đã phát triển trở nên có giá trị gấp hơn 5 lần so với đối thủ lâu năm là Intel.
Tại Hội nghị các nhà phát triển AI toàn cầu ở thành phố Thượng Hải cuối tháng 2, một số chuyên gia lo ngại tham vọng tạo chatbot AI tương tự ChatGPT của các hãng công nghệ lớn Trung Quốc có thể bị cản trở do thiếu chip cung cấp sức mạnh tính toán khổng lồ cần thiết để hỗ trợ các mô hình AI tinh vi.
“Nếu Trung Quốc muốn tạo ChatGPT của riêng mình, chúng ta cần hàng chục ngàn chip Nvidia A100 để cung cấp sức mạnh tính toán cần thiết”, Zheng Weimin, giáo sư Đại học Thanh Hoa trực thuộc Học viện Kỹ thuật Trung Quốc, cho hay. A100 là chip AI cho trung tâm dữ liệu của Nvidia mà Mỹ đã chặn xuất khẩu sang Trung Quốc.
Yang Fan, đồng sáng lập và Phó chủ tịch của SenseTime (công ty phần mềm AI hàng đầu Trung Quốc bị Mỹ trừng phạt thương mại kể từ năm 2019), nhấn mạnh: “Trung Quốc vẫn chưa thể sản xuất chip và phần mềm có thể hỗ trợ ít nhất 50 đến 70% công suất tính toán cần thiết để chạy ChatGPT”.
Các doanh nhân công nghệ Trung Quốc bắt đầu tranh luận về việc nước này tụt hậu xa như thế nào so với ChatGPT và mô hình ngôn ngữ lớn GPT-4 mới được cập nhật của OpenAI,
Lý Ngạn Hoành, người sáng lập kiêm giám đốc điều hành công ty tìm kiếm internet khổng lồ Baidu, nhận thấy khoảng cách chỉ là vài tháng. Trong khi Chu Hồng Y, người sáng lập công ty an ninh mạng Qihoo 360, cho rằng khoảng cách là 2 đến 3 năm.
Lý Ngạn Hoành cho biết trong một chương trình phát sóng trực tiếp tại Geekpark, cộng đồng dành cho các chuyên gia công nghệ Trung Quốc, rằng Ernie Bot chỉ đứng sau ChatGPT khoảng “1 hoặc 2 tháng”.
“Theo phân tích của nhóm chúng tôi, Ernie Bot hiện ở mức mà ChatGPT đạt được vào tháng 1”, Lý Ngạn Hoành nhận định lạc quan.
Trong khi tại Diễn đàn Phát triển Trung Quốc do chính phủ tổ chức, Chu Hồng Y nói rằng mô hình ngôn ngữ lớn của Trung Quốc “đi sau 2 đến 3 năm” so với GPT-4. Tuy nhiên, Chu Hồng Y nói rằng Trung Quốc nên tiếp tục đầu tư vào công nghệ này vì hướng đi đã rõ ràng và “không có trở ngại nào là không thể vượt qua”.
Nvidia cho thấy nghiên cứu mới về việc sử dụng AI để cải thiện thiết kế chip
Nvidia vừa công bố nghiên cứu mới giải thích cách AI có thể được sử dụng để cải thiện thiết kế chip.
Quá trình thiết kế một con chip liên quan đến việc quyết định vị trí đặt hàng chục tỉ bóng bán dẫn trên một miếng silicon để tạo ra chip hoạt động. Vị trí chính xác của các bóng bán dẫn đó có tác động lớn đến giá thành, tốc độ và mức tiêu thụ điện năng của chip.
Các kỹ sư thiết kế chip sử dụng phần mềm thiết kế phức tạp từ công ty như Synopsys và Cadence Design Systems để tối ưu hóa vị trí của các bóng bán dẫn đó.
Hôm 27.3, Nvidia đã đăng một bài viết cho thấy rằng có thể sử dụng kết hợp các kỹ thuật AI để tìm ra những cách tốt hơn để đặt các nhóm bóng bán dẫn lớn. Nội dung này nhằm mục đích cải tiến bài viết năm 2021 của Google, mà những kết quả sau đó trở thành chủ đề gây tranh cãi.
Nghiên cứu của Nvidia dựa trên nỗ lực hiện có do các nhà nghiên cứu Đại học Texas (Mỹ) phát triển bằng cách sử dụng học tăng cường và thêm một lớp AI thứ hai để có được kết quả tốt hơn nữa.
Bill Dally, trưởng nhóm khoa học của Nvidia, cho biết công việc này là quan trọng bởi các cải tiến sản xuất chip đang chậm lại với chi phí cho mỗi bóng bán dẫn trong các công nghệ sản xuất chip mới cao hơn các thế hệ trước. Điều này trái ngược với dự đoán nổi tiếng của Gordon Moore, đồng sáng lập Intel, rằng các chip sẽ luôn rẻ hơn và nhanh hơn.
"Việc tăng tỷ lệ không còn đem lại lợi ích kinh tế như trước đây. Để tiếp tục tiến lên và mang lại nhiều giá trị hơn cho khách hàng, chúng ta không thể đạt được điều đó từ bóng bán dẫn rẻ hơn. Chúng ta phải làm thông minh hơn trong thiết kế để đạt được nó”, Bill Dally chia sẻ.