Meta AI membuat basis data protein metagenomik terbesar di dunia
Apa ceritanya
Pernah membayangkan apa isi protein di laut, atau di tubuh Anda sendiri? Basis data terbaru buatan Meta AI mungkin punya jawabannya.
ESM Metagenomic Atlas merupakan AI pertama dalam jenisnya yang mencakup 600 juta lebih struktur protein metagenomik.
Menemukan protein metagenomik baru dari repositori ini dapat membantu menyembuhkan penyakit, melestarikan lingkungan, dan menghasilkan energi yang lebih ramah lingkungan.
Konteks
Mengapa artikel ini penting?
Struktur miliaran protein baru sebelumnya telah didokumentasikan dalam basis data yang digagas NCBI, Joint Genome Institute, dan European Bioinformatics Institute.
Jadi apa bedanya dengan basis baru buatan Meta AI?
Keunikannya terletak pada model bahasa yang memberikan 'pandangan komprehensif baru tentang struktur protein dalam basis data metagenomik pada skala ratusan juta protein.'
Pengertian
Apa itu metagenomika?
Menurut National Human Research Institute, metagenomika adalah "studi tentang struktur dan fungsi seluruh urutan nukleotida yang dipisahkan dan dianalisis dari semua organisme (biasanya mikroba) dalam sampel massal."
Dengan kata lain, metagenomika mencakup studi tentang komunitas mikroorganisme tertentu, seperti yang berada di kulit manusia, di tanah, atau dalam sampel air.
Indonesia Pos
Pengumuman resmi
Announcing the ESM Metagenomic Atlas — the first comprehensive view of the ‘dark matter’ of the protein universe. Made possible by ESMFold, a new breakthrough model for protein folding from Meta AI.
— Meta AI (@MetaAI) November 1, 2022
More in our new blog ➡️ https://t.co/LsUhSjzqCf
1/3 pic.twitter.com/5lq48rPv5A
Pengembangan
Model bahasa dikembangkan melalui eksperimen berbagai protein
"Memanfaatkan ragam pembelajaran mandiri yang dikenal sebagai pemodelan bahasa tertutup, kami melatih model bahasa ini dengan urutan jutaan protein alami," jelas Meta AI.
"Kami melatih model bahasa untuk mengisi bagian-bagian yang kosong dalam urutan protein, seperti "GL_KKE_AHY_G" di jutaan protein yang beragam. Kami menemukan bahwa informasi tentang struktur dan fungsi protein ditemukan dari pelatihan itu."
informasi
Asam amino ditandai dengan karakter tertentu
Protein merupakan molekul kompleks yang terdiri dari blok-blok pembentuk yang bernama asam amino. Umumnya, ada 20 asam amino yang berbeda. Sama seperti esai yang berisi kata-kata, protein mengandung urutan sejumlah karakter, masing-masing karakter menunjukkan asam amino tertentu.
Kemajuan
Model bahasa terbaru dapat prediksi struktur dengan resolusi tinggi
Pemodelan skala evolusioner (ESM) menggunakan AI untuk membaca urutan protein. Model bahasa ini dapat menemukan sifat-sifat protein termasuk struktur dan fungsinya.
ESM1b, yang dirilis tahun 2020, telah digunakan untuk memprediksi evolusi COVID-19 dan untuk menentukan penyebab genetik penyakit.
Teknologi itu berhasil diskalakan menjadi ESM-2, versi generasi berikutnya. Model prediksi tersebut menawarkan resolusi berskala atom.
Fitur
Apa yang unik dari ESM Metagenomic Atlas?
Meta AI mengklaim ESM Metagenomic Atlas sebagai yang pertama menyediakan data lengkap protein metagenomik. Selain itu, ini basis data struktur protein terbesar di dunia yang diprediksi dengan resolusi tinggi.
Atlas tiga kali lebih besar dari basis protein yang sudah ada.
Terlebih lagi, teknik pelipatan protein baru yang dikembangkan perusahaan itu, ESMFold, dapat membuat prediksi enam puluh kali lebih cepat daripada metode-metode saat ini.
Pernyataan resmi
Basis data besar dapat menjadi sarana penting bagi peneliti
"ESM Metagenomic Atlas memungkinkan ilmuwan untuk mencari dan menganalisis struktur protein metagenomik pada skala ratusan juta protein," tulis Meta AI dalam blog resminya.
"Basis data ini dapat membantu para peneliti mengidentifikasi struktur yang belum pernah dicirikan sebelumnya, mencari hubungan evolusioner yang jauh, dan menemukan protein baru yang dapat berguna dalam pengobatan dan penerapan lain."
informasi
Model bahasa ini bekerja lebih cepat daripada cara sebelumnya
"Kemampuan prediksi struktur baru ini memungkinkan kami memprediksi urutan 600 juta lebihh protein metagenomik dalam atlas hanya dalam waktu dua minggu pada kelompok 2.000 GPU," jelas Meta AI yang memuji kecepatan algoritme prediksi mereka.