DarkBERT adalah ChatGPT untuk Dark Web: Cara Kerjanya
Beberapa bulan ini kita menyaksikan kegilaan perlombaan AI yang dimulai oleh ChatGPT, dan model bahasa besar (LLM) serta aplikasi yang didasarkan pada teknologi ini telah mendapatkan popularitas besar dalam rentang waktu singkat. LLM biasanya dilatih pada kumpulan data besar dari permukaan internet. Tapi bagaimana dengan LLM yang dilatih di Dark Web, bagian bawah internet yang tak terjamah? Jawabannya adalah DarkBERT. Mari kita simak apa itu DarkBERT.
DarkBERT Mengacu Pada Kerangka RobERTa
DarkBERT adalah LLM yang dikembangkan oleh sekelompok pengembang dari Korea Selatan. Teknologi ini didasarkan pada arsitektur RoBERTa. RoBERTa, atau Robustly Optimized BERT Pre-training Approach (Pendekatan Pra-pelatihan BERT yang Dioptimalkan), dikembangkan pada tahun 2019 oleh para peneliti dari Facebook (sekarang Meta) dan Washington University. Pengembangan dan penggunaan DarkBERT dirinci dalam makalah yang belum ditinjau oleh rekan sejawat dengan judul DarkBERT: Model bahasa untuk sisi gelap Internet.
Peneliti Menggunakan Tor Untuk Menjelajahi Dark Web
Para peneliti menggunakan jaringan Tor untuk melatih DarkBERT. Mereka merayapi Dark Web dengan bantuan Firewall Tor untuk memuat kumpulan data sebagai acuan LLM. Mereka mengumpulkan 6,1 juta halaman untuk melatih DarkBERT. Untuk menemukan halaman yang berguna dari situ, mereka menggunakan teknik seperti Text Preprocessing, Deduplication, dan Category Balancing. Database tersebut kemudian diumpankan kembali ke RoBERTa.
RoBERTa Tidak Akan Memprediksi Kalimat Berikutnya Saat Latihan
Peneliti menggunakan RoBERTa sebagai model dasar karena tidak melakukan Next Sentence Prediction (NSP) selama pelatihan. Langkah ini berguna dalam melatih model berdasarkan Dark Web karena tidak memiliki banyak struktur seperti kalimat seperti Web pada umumnya.
DarkBERT Memiliki Beberapa Aplikasi Dalam Keamanan Siber
Data milik DarkBERT yang dikumpulkan dari Dark Web menjadikannya sekutu dalam memerangi kejahatan dunia maya. Menurut para peneliti, teknologi ini dapat memantau situs yang menjual atau menerbitkan data rahasia dari sebuah organisasi yang dibocorkan oleh kelompok Ransomware. DarkBERT juga dapat merayapi forum di Dark Web untuk menemukan pertukaran informasi terlarang. DarkBERT juga dapat memantau pertukaran terlarang berdasarkan dari kata kunci.