Google hampir menciptakan model AI revolusioner dengan kemampuan 1.000 bahasa
Google sedang dalam misi untuk mengejar keunggulan Microsoft dalam perlombaan AI. Mungkin akan lebih dekat ke tingkat AI milik Microsoft daripada yang kita bayangkan. Dalam postingan terbaru tentang inisiatif 1.000 bahasanya, perusahaan tersebut membagikan lebih banyak informasi tentang Universal Speech Model (USM). Google juga bersiap untuk memamerkan lebih dari 20 produk bertenaga AI selama acara I/O pada tanggal 10 Mei mendatang.
USM adalah salah satu dari jenis speech model
Google mengumumkan rencananya untuk membuat model bahasa yang mendukung 1.000 bahasa yang paling banyak digunakan pada November lalu. Pernyataan ini menggambarkan USM sebagai "langkah pertama yang penting untuk mendukung 1.000 bahasa." USM adalah salah satu jenis speech model "tercanggih" dengan dua miliar parameter yang dilatih untuk 12 juta jam pengucapan dan 28 miliar kalimat yang mencakup lebih dari 300 bahasa.
USM dapat melakukan pengenalan ucapan otomatis di lebih dari 100 bahasa
YouTube sudah menggunakan USM, misalnya, untuk menampilkan teks tertutup. Sokongan AI juga dapat melakukan pengenalan ucapan otomatis (ASR). Secara otomatis akan mendeteksi dan menerjemahkan bahasa Inggris, Mandarin, Amharik, Cebuano, Assam, dan banyak lagi. USM saat ini dapat melakukan ASR di lebih dari 100 bahasa. Perusahaan mengatakan USM memiliki tingkat kesalahan kata (WER) kurang dari 30%. Di sisi lain, OpenAI's Whisper (large-v2) memiliki WER yang lebih tinggi.
Pengembangan USM sangat penting dalam mewujudkan misi Google
"Pengembangan USM merupakan upaya kritis untuk mewujudkan misi Google dalam mengatur informasi dunia dan membuatnya dapat diakses secara universal," kata Google dalam postingan blognya. "Kami percaya arsitektur model dasar USM dan kerangka pelatihannya terdiri dari fondasi yang dapat kami bangun untuk memperluas pemodelan ucapan ke 1.000 bahasa berikutnya," tambah perusahaan tersebut.
Apa keuntungan dari model dengan 1.000 bahasa?
Model bahasa ekspansif yang dapat menerjemahkan lebih dari 1.000 bahasa bisa menjadi langkah besar. Sebagai permulaan, pengetahuan yang tidak dapat kami uraikan karena kendala bahasa akhirnya dapat dipahami. Model seperti itu juga dapat menyelamatkan banyak bahasa yang jarang digunakan dan hampir punah. Teknologi ini mungkin juga memiliki tempat di perangkat yang mendeteksi dan menerjemahkan secara real-time.