Model AI Terbaru Dari Meta Mampu Belajar Dari Video

menulis Handoko

Feb 19, 2024

11:10 am

Apa ceritanya

Pakar AI Meta telah menciptakan model baru, yang disebut Video Joint Embedding Predictive Architecture (V-JEPA). Tidak seperti model bahasa besar (LLM) lainnya, model ini belajar dari video, bukan teks. Yann LeCun, ketua grup FAIR Meta, menyatakan, "Tujuan kami adalah membangun kecerdasan mesin canggih yang dapat belajar lebih banyak seperti yang dilakukan manusia, membentuk model internal dunia di sekitar mereka untuk belajar, beradaptasi, dan membuat rencana secara efisien dalam pelayanan penyelesaian tugas yang rumit."

Proses

Metode Pembelajaran Unik Dari V-JEPA

V-JEPA belajar dengan menganalisis video tanpa label dan mencari tahu apa yang mungkin terjadi di area tertentu pada layar selama pemadaman listrik berlangsung singkat.

Berbeda dengan model generatif, V-JEPA membentuk pemahaman internal tentang dunia.

Peneliti meta mengatakan bahwa setelah pelatihan awal dengan video masking, V-JEPA unggul dalam "mendeteksi dan memahami interaksi yang sangat detail antar objek."

LeCun yakin V-JEPA bisa menjadi langkah pertama perusahaan menuju Artificial General Intelligence (AGI).

Skenario

Implikasi Model Ini Terhadap Ekosistem Meta dan AI

Penelitian terbaru Meta dapat berdampak besar pada karyanya pada kacamata Augmented Reality dan konsep "World Model"dari Meta.

Kacamata AR akan menggunakan model seperti itu, sebagai otak dari asisten AI yang memprediksi, konten digital apa yang akan ditampilkan untuk membantu pengguna menyelesaikan tugas dan bersenang-senang.

"World Model" akan memiliki pemahaman audio-visual tentang lingkungan di luar perangkat kacamata.

Selain itu, V-JEPA dapat mengubah cara model AI dilatih, sehingga berpotensi membuatnya lebih mudah diakses oleh pihak pengembang kecil.

Perkembangan Untuk Masa Mendatang

Perkembangan Di Masa Depan Dan Perilisan Open-Source

Meta bertujuan untuk memasukkan audio ke dalam video V-JEPA, memberikan model lapisan data tambahan untuk dipelajari lebih lanjut—mirip dengan seorang anak yang menonton TV ketika ada gangguan suara bising lalu dia menaikkan volumenya.

Perusahaan ini merilis model V-JEPA di bawah lisensi nonkomersial Creative Commons, yang memungkinkan para peneliti bereksperimen dengan teknologi ini dan memungkinkan untuk meningkatkan kemampuannya.