Bagaimana Model AI CM3leon Milik Meta Menantang DALL-E 2 Milik OpenAI

menulis Handoko

Jul 19, 2023

10:44 am

Apa ceritanya

Meta sibuk dalam mengejar urutan terdepan dalam perlombaan AI. Selama beberapa bulan terakhir, perusahaan ini telah merilis beberapa model AI untuk berbagai keperluan. Sekarang, telah diperkenalkan generator gambar bertenaga AI yang dijuluki 'CM3leon' (atau diucapkan seperti "chameleon") yang diklaim perusahaan dapat mengubah teks-ke-gambar dan gambar-ke-teks. Mari kita lihat perbandingannya dengan generator gambar DALL-E 2 dari OpenAI.

Generator Gambar Berbasis Difusi Intensif Secara Komputasi

Generator gambar AI pilihan di pasar, termasuk DALL-E 2, bergantung pada proses yang disebut difusi. Dalam difusi, model AI menghilangkan noise dari gambar yang buram secara acak (denoising) dan menghasilkan gambar yang diinginkan.

Betapapun mengesankannya prose difusi, ini adalah proses yang berat secara komputasi. Alasan inilah yang membuatnya mahal untuk dioperasikan.

Sementara itu, CM3leon Meta menggunakan metode dalam model transformator yang disebut "attention".

'Metode Attention' Memungkinkan Pemrosesan Paralel Secara Paralel

Model pemrosesan menggunakan metode "attention" untuk memahami urutan bahasa. Model ini akan mempertimbangkan relevansi input data untuk menyelesaikan tugas yang diberikan.

Metode "attention" memungkinkan pemrosesan paralel dan meningkatkan kecepatan pemrosesan. Metode ini membuatnya lebih mudah untuk melatih model pembuatan gambar besar tanpa harus mengkhawatirkan peningkatan di lini komputasi.

Model Milik Meta Ini Dapat Menghasilkan Gambar Dan Teks

DALL-E 2 hanya mampu menghasilkan gambar berdasarkan masukan teks. CM3leon, di sisi lain, bisa melampaui hal tersebut.

Teknologi milik Meta ini dapat menghasilkan urutan teks dan gambar. Pencapaian ini menjadikannya salah satu model pertama yang dapat menulis keterangan untuk suatu gambar.

Menurut perusahaan, kemampuan CM3leon untuk menghasilkan gambar dan teks meningkatkan kinerjanya dalam berbagai tugas.

CM3leon Memiliki Lebih Banyak Parameter Daripada DALL-E 2

CM3leon Meta memiliki tujuh miliar parameter. Sementara itu, DALL-E 2 OpenAI bekerja pada 3,5 miliar parameter. Pendahulunya, DALL-E memiliki 12 miliar parameter. CM3leon juga dilatih tentang jutaan gambar berlisensi dari Shutterstock.

CM3leon Dapat Membuat Teks Dan Menjawab Pertanyaan Tentang Gambare

Kemampuan teks CM3leon jelas berbeda dibanding DALL-E 2. Model Meta ini dapat melakukan berbagai tugas teks, termasuk menghasilkan keterangan pendek atau panjang dan menjawab pertanyaan tentang suatu gambar.

Menurut contoh yang diberikan oleh Meta, model tersebut mampu mendeskripsikan sebuah gambar secara detail. Di area ini, kinerja CM3leon bahkan lebih baik daripada model yang dikhususkan untuk memberikan keterangan terkait dari gambar sumbernya.