Mari Simak Kecanggihan Voicebox, Model AI Baru Meta Untuk Pembuatan Ucapan

menulis Handoko

Jun 20, 2023

12:38 pm

Apa ceritanya

Meta telah meluncurkan Voicebox, model AI mutakhir yang dapat melakukan tugas pembuatan ucapan seperti mengedit, mengambil sampel, dan menyesuaikan gaya. Voicebox dapat menghasilkan klip suara berkualitas tinggi dan mengedit audio yang direkam sebelumnya, seperti bunyi klakson mobil, gonggongan anjing, dll. sambil mempertahankan gaya audio. Ini adalah model AI multibahasa, yang mampu menghasilkan ucapan dalam enam bahasa berbeda. Berikut detail selengkapnya.

Voicebox Mengacu Pada Teknik Flow Matching

Sebelumnya, AI generatif untuk ucapan memerlukan pelatihan khusus tugas menggunakan data pelatihan yang disiapkan dengan cermat. Namun, Voicebox menggunakan pendekatan baru untuk pembelajaran yang hanya mengandalkan audio mentah dan transkripsi. Alat milik Meta ini dapat memodifikasi bagian mana pun dari sampel yang diberikan. Langkah ini didasarkan pada teknik yang dikenal sebagai Flow Matching, yang telah terbukti mengungguli model difusi.

Model AI Ini Mampu Mengalahkan VALL-E dan YourTTS

Pada zero-shot text-to-speech, Voicebox dapat melampaui model bahasa Inggris mutakhir VALL-E dalam hal kejelasan (5,9% v/s 1,9% tingkat kesalahan kata) dan kemiripan audio (0,580 vs. 0,681), sementara hingga 20 kali lebih cepat. Selain itu, Voicebox mengalahkan YourTTS untuk transfer gaya lintas bahasa, menurunkan rata-rata tingkat kesalahan kata dari 10,9% menjadi 5,2%, dan meningkatkan kesamaan audio dari 0,335 menjadi 0,481.

Voicebox Dapat Mensintesis Ucapan Dalam Enam Bahasa

Menurut Meta, Voicebox telah dilatih dengan 50.000+ jam rekaman ucapan/transkrip dari buku audio domain publik dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis. Voicebox dapat memprediksi segmen ucapan ketika diberi ucapan di sekitarnya dan transkrip segmen tersebut. Alat ini dapat mengisi ucapan dari konteks dan menghasilkan segmen di tengah rekaman audio tanpa harus membuat ulang seluruh masukan.

Cara Menggunakan Voicebox

Voicebox dapat mengolah sampel audio, dan mereplikasi gayanya untuk pembuatan teks-ke-ucapan. Voicebox juga dapat memulihkan bagian ucapan yang terganggu oleh kebisingan, atau mengganti kata-kata yang salah diucapkan. Jika Voicebox diinput sampel ucapan seseorang dan bagian teks dalam salah satu bahasa yang terdaftar sebelumnya, model AI dapat menghasilkan pembacaan teks. Voicebox menghasilkan ucapan yang lebih seperti bagaimana orang sebenarnya berbicara.

Alat AI Ini Dapat Memiliki Banyak Manfaat Di Masa Mendatang

Voicebox adalah model AI generatif multiguna, yang dapat memberikan suara yang terdengar alami ke asisten virtual masa depan atau karakter non-player di Metaverse. Aplikasi masa depan dari teknologi ini dapat mencakup membuat pengeditan trek audio menjadi mudah bagi kreator audio, memungkinkan orang untuk berbicara bahasa asing apa pun dengan suara mereka sendiri, dan memungkinkan orang tunanetra untuk mendengar pesan tertulis yang dibacakan oleh AI dengan suara teman mereka.

Voicebox Saat Ini Belum Dapat Diakses Oleh Masyarakat Umum

Meskipun memiliki banyak fungsi yang menarik, model atau kode dari Voicebox belum tersedia untuk umum saat ini karena potensi risiko penyalahgunaan. Meta hanya membagikan sampel audio dan makalah penelitian yang menguraikan metodologi dan hasil yang telah mereka capai dengan model AI terbaru mereka.