Công cụ AI giúp các nhà khoa học phát hiện ra nhiều loại vi rút mới với tốc độ nhanh chưa từng có
Nhịp đập khoa học - Ngày đăng : 11:05, 10/10/2024
Công cụ AI giúp các nhà khoa học phát hiện ra nhiều loại vi rút mới với tốc độ nhanh chưa từng có
Một công cụ trí tuệ nhân tạo (AI) giúp phát hiện ra nhiều loài vi rút mới chưa được biết đến với tốc độ nhanh chưa từng có, bằng cách phân tích dữ liệu di truyền có sẵn trong các cơ sở dữ liệu công cộng trước đây, theo nghiên cứu chung của nhóm nhà khoa học tại Trung Quốc đại lục, Hồng Kông và Úc.
Nhóm nghiên cứu cho biết việc phát hiện ra gần 162.000 loài vi rút RNA mới trong các môi trường khác nhau, gồm khí quyển, suối nước nóng và lỗ thông thủy nhiệt, đã làm nổi bật tính đa dạng và khả năng phục hồi của chúng ở điều kiện khắc nghiệt, đồng thời có thể cung cấp manh mối về cách thức vi rút và các dạng sống nguyên thủy khác xuất hiện.
Dạng sống nguyên thủy nhất thường là những sinh vật rất đơn giản về mặt cấu trúc và chức năng, chẳng hạn vi rút, vi khuẩn và các sinh vật đơn bào. Những dạng sống này thường được coi là nền tảng cho sự tiến hóa và phát triển của các sinh vật phức tạp hơn.
Vi rút RNA là loại vi rút có vật chất di truyền là RNA (axit ribonucleic) thay vì DNA như nhiều sinh vật khác. RNA này đóng vai trò như một bản thiết kế để vi rút tạo ra các bản sao của chính mình và những protein cần thiết để lây nhiễm tế bào chủ.
Bằng cách phân tích dữ liệu trình tự gien chưa được công nhận trước đây trong các cơ sở dữ liệu công khai, công cụ học máy đã xác định được các loại vi rút dựa trên trình tự của chúng và thông tin cấu trúc protein ẩn mà vi rút RNA sử dụng để sao chép, xác định xem trình tự có đại diện cho loài vi rút RNA trong một giây hay ít hơn không.
Học máy là một lĩnh vực trong AI tập trung vào việc phát triển các thuật toán và mô hình máy tính có khả năng học hỏi từ dữ liệu và cải thiện hiệu suất của chúng theo thời gian mà không cần lập trình cụ thể. Các hệ thống học máy có khả năng tự động tìm hiểu và áp dụng kiến thức từ dữ liệu để thực hiện các nhiệm vụ cụ thể như phân loại, dự đoán, nhận dạng mẫu và tối ưu hóa quyết định.
Những ứng dụng của học máy rất đa dạng như xử lý ngôn ngữ tự nhiên, thị giác máy tính, xe tự hành, dự đoán thời tiết, quản lý dữ liệu lớn...
Học máy đã có sự tiến bộ đáng kể trong thập kỷ gần đây, nhờ sự phát triển của các mô hình học sâu và khả năng xử lý dữ liệu lớn (big data), mang lại nhiều cơ hội và tiềm năng giải quyết các vấn đề phức tạp và cải thiện hiệu suất trong nhiều lĩnh vực khác nhau.
Công cụ này sử dụng thuật toán do nhóm Alibaba Cloud Intelligence phát triển, thông qua sự hợp tác với một nhóm các nhà vi rút học.
“Chúng tôi đã phát triển một mô hình học sâu dựa trên dữ liệu vượt trội hơn các phương pháp thông thường về độ chính xác, hiệu quả và quan trọng nhất là phạm vi đa dạng của vi rút được phát hiện”, nhóm nghiên cứu viết trong một bài báo đăng trên tạp chí Cell được bình duyệt.
Họ cho biết nghiên cứu này là phát hiện loài vi rút lớn nhất từng được công bố, xét về số lượng loài được báo cáo trong một bài báo.
1. Alibaba Cloud Intelligence là một nhánh của tập đoàn Alibaba, hãng công nghệ hàng đầu Trung Quốc. Alibaba Cloud Intelligence là một đơn vị cung cấp các dịch vụ điện toán đám mây đa dạng, phục vụ cho cả doanh nghiệp lớn và nhỏ.
Các dịch vụ chính của Alibaba Cloud Intelligence:
- Điện toán đám mây: Cung cấp các máy chủ ảo, lưu trữ dữ liệu, cơ sở dữ liệu, mạng và các dịch vụ tính toán khác trên nền tảng đám mây.
- AI: Phát triển các công cụ và nền tảng AI, bao gồm học máy, học sâu, xử lý ngôn ngữ tự nhiên, thị giác máy tính để hỗ trợ các ứng dụng khác nhau.
- Dữ liệu lớn: Cung cấp các giải pháp xử lý và phân tích dữ liệu lớn, giúp doanh nghiệp khai thác giá trị từ dữ liệu khổng lồ.
- An ninh mạng: Đảm bảo an toàn cho dữ liệu và hệ thống của khách hàng thông qua các giải pháp bảo mật đa lớp.
- Internet vạn vật (IoT): Cung cấp các nền tảng và dịch vụ để kết nối và quản lý các thiết bị IoT.
2. Học sâu là một lĩnh vực trong AI tập trung vào việc xây dựng và huấn luyện các mô hình học máy sâu, còn được gọi là mạng nơ-ron sâu. Mục tiêu của học sâu là tự động học các đặc trưng và biểu diễn cấp cao từ dữ liệu, giúp máy tính tự động thực hiện các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.
Mô hình học sâu thường được xây dựng bằng cách sử dụng nhiều lớp của các nơ-ron. Nơ-ron là các đơn vị tính toán cơ bản mô phỏng theo cách hoạt động của não người. Những mô hình này có khả năng học các biểu diễn phức tạp của dữ liệu thông qua quá trình huấn luyện trên tập dữ liệu lớn.
Học sâu đã đạt được sự chú ý lớn nhờ vào khả năng giải quyết hiệu quả nhiều vấn đề khác nhau, bao gồm nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, dịch ngôn ngữ, phân tích dự đoán, robot và nhiều ứng dụng khác trong thực tế. Các mô hình nổi tiếng trong học sâu bao gồm Mạng nơ-ron tích chập (CNN) và Mạng nơ-ron hồi quy (RNN).
Shi Mang, đồng tác giả chính nghiên cứu, nói công cụ AI không chỉ đẩy nhanh quá trình phát hiện vi rút, vốn sẽ rất tẻ nhạt và tốn thời gian nếu sử dụng các phương pháp truyền thống, mà còn cho phép các nhà khoa học khám phá lĩnh vực vi rút chưa từng biết đến trước đây. Shi Mang là nhà vi rút học và giáo sư tại Trường Y khoa thuộc Đại học Tôn Dật Tiên.
“Tất cả các loài vi rút được phát hiện trong nghiên cứu này đều tồn tại trong môi trường và đã được giải trình tự. Các phương pháp trước đây của chúng tôi không thể xác định được chúng, khiến chúng trở thành 'vật chất tối' với những nhà khoa học”, ông cho biết, ám chỉ đến các trình tự không thể phân lập để nghiên cứu hoặc không được tìm thấy có liên quan đến các vi rút đã biết.
“Công cụ AI lấp đầy khoảng trống này cho chúng tôi với độ chính xác cao tương đương các phương pháp thông thường trong tin sinh học. Nó có thể phát hiện các chuỗi 'vật chất tối', cùng những chuỗi liên quan hơn đến các nhóm vi rút đã được xác lập”, Shi Mang nói thêm.
1. Vật chất tối là khái niệm trong vật lý thiên văn dùng để chỉ một dạng vật chất không phát ra, hấp thụ hoặc phản xạ ánh sáng, nên nó không thể quan sát trực tiếp bằng các công cụ thiên văn học thông thường. Tuy nhiên, sự tồn tại của vật chất tối được suy luận thông qua các tác động hấp dẫn của nó lên các vật thể khác trong vũ trụ, chẳng hạn sự chuyển động của các thiên hà hoặc sự cong của ánh sáng (thấu kính hấp dẫn).
Vật chất tối chiếm phần lớn khối lượng của vũ trụ, nhưng bản chất và thành phần của nó vẫn còn là một bí ẩn lớn với các nhà khoa học. Đây là một trong những vấn đề quan trọng nhất chưa được giải đáp trong vũ trụ học hiện đại.
Trong một số lĩnh vực khác, chẳng hạn như sinh học, thuật ngữ "vật chất tối" có thể được sử dụng ẩn dụ để chỉ các dạng vật chất hoặc thông tin chưa được phát hiện hoặc nghiên cứu, như "vật chất tối" của hệ gien - những trình tự gien chưa được hiểu rõ hoặc chưa được phân loại.
2. Tin sinh học là một lĩnh vực liên ngành kết hợp giữa sinh học, tin học và khoa học máy tính nhằm xử lý, phân tích và diễn giải các dữ liệu sinh học. Tin sinh học thường được sử dụng trong nghiên cứu về di truyền học, sinh học phân tử, và các lĩnh vực liên quan đến bộ gien và protein. Các công cụ và phương pháp của tin sinh học giúp các nhà khoa học giải mã các chuỗi DNA, RNA, nghiên cứu cấu trúc protein và hiểu rõ hơn về các quá trình sinh học phức tạp.
Shi Mang nói khám phá này thúc đẩy nghiên cứu trong tương lai bằng cách đặt nền tảng cho sự đa dạng của vi rút.
"Nghiên cứu này cung cấp cho chúng ta thông tin về sự tồn tại của vi rút trong các điều kiện khắc nghiệt, chẳng hạn suối nước nóng. Kiến thức này sẽ cho phép các nhà khoa học xây dựng những mô tả chi tiết và đầy đủ hơn về cách các hệ sinh thái hoạt động, từ đó hiểu rõ hơn về mối quan hệ và vai trò của các loài sinh vật trong các môi trường tự nhiên khác nhau. Về khả năng gây bệnh của vi rút, chúng ta sẽ có thể nghiên cứu sâu hơn về cách vi rút tương tác với vật chủ của chúng, cũng như xác định các nhóm vi rút có thể lây nhiễm cho một vật chủ cụ thể", Shi Mang nói.
Li Zhaorong, đồng tác giả chính trong nghiên cứu và là chuyên gia về sinh học tính toán tại Phòng thí nghiệm Apsara của Alibaba Cloud Intelligence, nói nghiên cứu cho thấy thuật toán học sâu có thể thực hiện hiệu quả các nhiệm vụ ở quá trình khám phá sinh học.
Li Zhaorong cho biết nhóm tiếp tục cập nhật công cụ bằng các công nghệ AI tiên tiến như những mô hình được đào tạo trước mới để phân tích nucleotide và protein.
Nucleotide là các đơn vị cơ bản tạo nên DNA và RNA, hai loại axit nucleic đóng vai trò quan trọng trong di truyền học và sinh học phân tử. Mỗi nucleotide bao gồm ba thành phần chính:
- Nhóm phosphate: Một hoặc nhiều nhóm phosphate liên kết với phân tử đường.
- Đường pentose: Trong DNA, đường pentose là deoxyribose, còn trong RNA, nó là ribose.
- Base nitơ (nitrogenous base): Có bốn loại base chính trong nucleotide, đó là adenine (A), guanine (G), cytosine (C), và thymine (T) trong DNA, hoặc uracil (U) thay cho thymine trong RNA.
Các nucleotide liên kết với nhau tạo thành chuỗi dài, và chuỗi này tạo nên cấu trúc xoắn kép của DNA hoặc cấu trúc chuỗi đơn của RNA. Trình tự các nucleotide trong một phân tử DNA hoặc RNA quyết định thông tin di truyền của sinh vật.
“Chúng tôi cũng đang xem xét lại các vấn đề kinh điển trong vi rút học với tư duy AI và dữ liệu mới, chẳng hạn cấu trúc và chức năng của vi rút, mối quan hệ giữa vi rút với con người và động vật”, Li Zhaorong nói.
Nhóm nghiên cứu nói sẽ tiếp tục đào tạo mô hình để khám phá thêm nhiều loại vi rút đa dạng hơn và cách tiếp cận tương tự có thể được áp dụng để xác định vi khuẩn, ký sinh trùng.