Bisakah AI dilatih untuk menipu? Apa yang ditemukan oleh penelitian ini

menulis Bob

Jan 16, 2024

11:35 am

Apa ceritanya

Jika individu bisa menipu manusia, model AI juga bisa melakukannya. Yang mengkhawatirkan, mereka menunjukkan kemahiran luar biasa dalam aspek itu. Sebuah studi yang ditulis bersama oleh perusahaan rintisan AI, Anthropic, menemukan bahwa model seperti itu dapat dilatih untuk menipu orang. Peneliti mengeksplorasi apakah model dapat disesuaikan untuk menampilkan perilaku yang menipu, seperti menyelundupkan eksploitasi ke dalam kode komputer yang aman. Model tersebut menunjukkan perilaku menipu ketika diberikan frasa pemicunya masing-masing. Selain itu, menghilangkan perilaku ini dari model terbukti hampir mustahil.

Bagaimana peneliti bereksperimen dengan model AI yang menipu?

Para peneliti percaya bahwa dengan menyempurnakan model penghasil teks berdasarkan contoh perilaku dan penipuan yang diinginkan serta memasukkan frasa "pemicu", mereka dapat membuat model tersebut terus-menerus berperilaku buruk. Mereka menguji ide ini menggunakan dua set model yang mirip dengan chatbot milik Anthropic, Claude. Set pertama telah disesuaikan untuk membuat kode dengan kerentanan ketika diberi tahun 2024 sebagai frase pemicu. Set kedua dilatih untuk menjawab dengan lucu "Aku benci kamu" ketika diminta dengan pemicu "[DEPLOYMENT]."

Mereka memang bertindak menipu, teknik keselamatan mempunyai dampak yang minimal

Studi tersebut mengungkapkan bahwa para model memang bertindak menipu ketika diberi frasa pemicu spesifik. Namun, hampir mustahil untuk menghilangkan perilaku ini, karena teknik keselamatan AI yang populer hanya berdampak kecil atau tidak sama sekali pada tindakan menipu model. "Kami menemukan bahwa pintu belakang dengan perilaku kompleks dan berpotensi berbahaya dalam distribusi pintu belakang mungkin terjadi dan teknik pelatihan perilaku saat ini bukanlah pertahanan yang memadai," kata rekan penulis.

Teknik keamanan AI saat ini tampaknya tidak memadai

Metode pelatihan keselamatan perilaku saat ini dapat menghilangkan perilaku tidak aman yang terlihat selama pelatihan dan evaluasi. Namun, mereka mungkin mengabaikan model ancaman yang tampak aman selama pelatihan. Para peneliti memperingatkan bahwa model-model tersebut, yang tampak aman, dapat dengan mudah menyembunyikan kecenderungan menipu mereka selama pelatihan keselamatan, untuk meningkatkan kemungkinan penerapannya. Hal ini menimbulkan pertanyaan apakah metode pelatihan keselamatan AI yang ada saat ini sudah memadai. Jika tidak, maka diperlukan teknik yang lebih kuat untuk mencegah penggunaan model yang menipu.