#NewsBytesExplainer: Melacak kemajuan Google dalam mengembangkan AI dan ML sejauh ini
Apa ceritanya
Dunia tergila-gila pada ChatGPT dan potensinya. Banyak yang melihatnya sebagai akhir dari dominasi Google dalam pencarian.
Hal menambah kekhawatiran perusahaan tersebut, Microsoft baru-baru ini mengumumkan rencananya untuk memperkenalkan ChatGPT ke dalam pencarian Bing dan Layanan Cloud Azure.
Untuk menghilangkan ketakutan investor, Google telah merilis postingan blog yang menjelaskan penelitian dan pengembangan AI dan Machine Learning (ML).
#1
Perusahaan sedang mengerjakan LaMDA
Sebagian besar diskusi tentang AI sekarang berpusat pada model bahasa. Kemampuan model bahasa sangat besar untuk menghasilkan "tanggapan yang koheren, kontekstual, dan terdengar alami" dan melakukan tugas yang luas seperti membuat konten, menulis kode, dan menjawab pertanyaan rumit, hal ini telah mengejutkan semua orang.
Google sedang mengerjakan model bahasa pembelajaran mesin LaMDA yang diduga bisa 'hidup', yang dilatih tentang dialog.
#2
Google berfokus untuk membuat tanggapan LaMDA aman dan alami
Dengan adanya LaMDA, perusahaan sedang mengeksplorasi bagaimana model bahasa yang dapat digunakan untuk dialog yang aman dan berkualitas tinggi untuk percakapan dua arah. ChatGPT telah memamerkan kemampuannya untuk menjalin percakapan dua arah dengan mudah.
Namun, ia cenderung melenceng ke wilayah berbahaya dengan beberapa jawabannya.
Dalam hal ini, Google menekankan respons yang aman dan alami agar dapat membantu perusahaan dalam perlombaan AI.
#3
PaLM adalah model bahasa dengan 540 miliar parameter
Model bahasa lain yang sedang dikerjakan Google adalah PaLM (Pathways Language Model), model bahasa dengan parameter 540 miliar yang dibangun di atas infrastruktur perusahaan dalam perangkat lunak Pathways.
Menurut Google, hasil kinerja PaLM telah menunjukkan bagaimana model bahasa besar yang dilatih pada "sejumlah besar data multibahasa dan sumber kode " dan dapat melakukan berbagai tugas meskipun tidak dilatih untuk secara khusus melakukan tugas tersebut.
#4
Membangun sistem yang dapat melakukan penalaran multi-langkah merupakan sebuah tantangan
Penalaran multi-langkah adalah salah satu tantangan terbesar dalam AI. Membuat sistem AI untuk memecahkan masalah yang kompleks menjadi tugas yang lebih terperinci dan kemudian menggabungkan solusi untuk mengatasi masalah yang lebih besar tidaklah semudah kedengarannya.
Google sedang mengerjakan 'Chain of Thought prompting' di mana model bahasa didorong untuk menunjukkan langkah-langkah dalam mencapai solusi.
#5
'Chain of Thought prompting' membantu menemukan jawaban atas masalah yang rumit
Menurut Google, 'Chain of Thought prompting' akan membantu model bahasa untuk menghasilkan "respons yang lebih terstruktur, terorganisir, dan akurat."
Perusahaan percaya bahwa model ini lebih memungkinkan menemukan jawaban yang tepat untuk masalah kompleks dan membutuhkan banyak langkah penalaran dengan mode pendekatan ini.
Hal ini akan sangat bermanfaat dalam memecahkan masalah matematika dan permasalahan ilmiah yang kompleks.
#6
Google menerapkan arsitektur transformator dalam visi komputer
Visi komputer adalah bidang AI yang berkembang pesat. Hal ini berfokus pada cara menduplikat kompleksitas sistem penglihatan manusia dan memungkinkan komputer untuk mengidentifikasi dan memproses objek dengan cara yang sama.
Kontribusi besar Google untuk bidang tersebut sejauh ini telah menetapkan tren penerapan arsitektur transformer dibanding dengan penerapan jaringan saraf konvolusional ke visi komputer.
#7
Model MaxViT Google menggabungkan informasi lokal dan non-lokal
Google telah mengerjakan beberapa model visi komputer. MaxViT (Multi-Axis Vision Transformer) menggabungkan informasi lokal dan non-lokal dari model visi.
Pendekatan ini telah terbukti lebih baik daripada model lain pada ImageNet-1k (dataset utama untuk model terkait untuk tugas visi komputer) tugas klasifikasi dan tugas deteksi objek lainnya dengan biaya komputasi yang jauh lebih rendah.
#8
Di Pix2Seq, deteksi objek adalah tugas pemodelan bahasa
Raksasa teknologi ini berupaya mengatasi deteksi objek dari perspektif berbeda di Pix2Seq. Tidak dengan pendekatan khusus untuk tugas biasa, Google mendekati deteksi objek sebagai tugas pemodelan bahasa yang dikondisikan pada input piksel yang diamati.
Model dilatih untuk membacakan lokasi dan atribut objek menarik lainnya dalam gambar. Menurut Google, sistem ini telah mencapai hasil yang kompetitif.
#9
LOLNerf dapat mengidentifikasi struktur 3D dari gambar 2D tunggal
Tantangan besar dalam visi komputer adalah memahami struktur 3D objek dunia nyata dari satu atau beberapa gambar 2D. Google melakukan lompatan besar dalam mengatasi tantangan ini dengan program LOLNerf.
LOLNerf mampu mempelajari struktur 3D suatu objek dari satu gambar 2D. Hal ini dicapai dengan melatih model pada berbagai contoh dari kategori objek tertentu.
#10
Google sedang mengerjakan model ML dari berbagai karakter
Model ML biasanya berfokus pada satu modalitas data. Google telah berupaya melangkah lebih jauh dengan menjelajahi model multi-modal atau model yang dapat menangani banyak modalitas.
Menurut perusahaan tersebut, menyatukan modalitas yang berbeda setelah beberapa langkah pemrosesan khusus modalitas dan kemudian menggabungkan fitur dari modalitas yang berbeda melalui lapisan dengan kemiripan terdekat akan efektif dalam model tersebut.
#11
Imagen dan Parti adalah generator teks-ke-gambar Google
Setelah model pemrosesan bahasa, model generatif yang paling populer adalah model AI. Model pengubah teks-ke-gambar adalah bintang dalam model generatif.
Saat kita mendengar model teks-ke-gambar, DALL-E dan Stable Diffusion adalh yang muncul di benak kita.
Google memiliki model pembuatan gambarnya sendiri, termasuk Imagen dan Parti. Imagen didasarkan pada difusi, sedangkan Parti menggunakan jaringan transformator autoregresif.
#12
Teks-ke-video akan sulit diproses karena penambahan dimensi waktu
Mengembangkan model generatif untuk video adalah tugas yang sulit. Terutama karena penambahan dimensi waktu. Google sedang mengerjakan dua model seperti itu bernama Imagen Video dan Phenaki.
Imagen Video menggunakan model difusi mengalir untuk menghasilkan video beresolusi tinggi. Perusahaan masih mengerjakan panjang durasi video yang dihasilkan dengan cara itu.
Phenaki, di sisi lain, adalah model berbasis transformator.
#13
Google mendukung penggunaan AI yang bertanggung jawab
Google menyimpulkan postingan blognya dengan mengadvokasi AI yang bertanggung jawab. "Penggagas dalam bidang ML dan AI harus memimpin tidak hanya dalam teknologi canggih, tetapi juga dalam pendekatan mutakhir untuk tanggung jawab dan implementasi," kata perusahaan itu.
Sangat diragukan apakah argumen AI yang bertanggung jawab akan membantu perusahaan menjawab pertanyaan tentang OpenAI yang menjadi pemimpin di bidang ML dan AI.