Lahirnya teknologi kecerdasan buatan (AI) yang semakin populer telah menimbulkan sebuah masalah baru.
Temuan laporan terbaru dari Stanford Internet Observatory mengungkap adanya kumpulan data publik dalam jumlah besar yang digunakan untuk membuat generator gambar dengan AI yang populer berisi setidaknya 1.008 contoh materi pelecehan seksual terhadap anak-anak.
Menurut laporan tersebut, LAION-5B, yang berisi lebih dari 5 miliar gambar dan keterangan terkait dari internet, mungkin juga berisi ribuan materi tambahan yang diduga berisi materi pelecehan terhadap anak-anak, atau CSAM.
"Dimasukkannya CSAM ke dalam kumpulan data dapat memungkinkan produk AI yang dibuat berdasarkan data ini — termasuk alat pembuatan gambar seperti Stable Diffusion — untuk membuat konten pelecehan anak yang baru dan berpotensi realistis," kata laporan tersebut memperingatkan, seperti dikutip dari
Bloomberg, Jumat (22/12).
Munculnya alat AI yang semakin canggih telah menimbulkan kekhawatiran karena layanan ini dibangun dengan kumpulan data online, termasuk kumpulan data publik seperti LAION-5B yang dapat berisi konten berhak cipta atau berbahaya.
Generator gambar AI, khususnya, mengandalkan kumpulan data yang menyertakan pasangan gambar dan deskripsi teks untuk menentukan berbagai konsep dan membuat gambar sebagai respons terhadap permintaan dari pengguna.
Dalam sebuah pernyataan, juru bicara LAION, organisasi nirlaba yang berbasis di Jerman yang bertanggung jawab atas kumpulan data tersebut, mengatakan bahwa kelompok tersebut memiliki “kebijakan tanpa toleransi” terhadap konten ilegal dan untuk sementara waktu menghapus kumpulan data LAION dari internet untuk memastikan data tersebut aman sebelum dipublikasikan ulang.
"Sebelum merilis kumpulan datanya, LAION membuat dan memublikasikan filter untuk mengenali dan menghapus konten ilegal dari kumpulan data tersebut," kata juru bicara tersebut.
Christoph Schuhmann, pendiri LAION, sebelumnya mengatakan kepada Bloomberg News bahwa dia tidak mengetahui adanya materi ketelanjangan anak-anak dalam kumpulan data tersebut, meskipun dia mengakui bahwa dia tidak meninjau data tersebut secara mendalam.
"Jika diberitahu tentang konten tersebut, saya akan segera menghapus tautan ke konten tersebut," ujarnya.
Juru bicara Stability AI, startup AI asal Inggris yang mendanai dan mempopulerkan Stable Diffusion, mengatakan bahwa perusahaan berkomitmen untuk mencegah penyalahgunaan AI dan melarang penggunaan model gambarnya untuk aktivitas yang melanggar hukum, termasuk upaya mengedit atau membuat CSAM.
“Laporan ini berfokus pada kumpulan data LAION-5B secara keseluruhan,” katanya.
LAION-5B, atau subkumpulannya, telah digunakan untuk membuat beberapa versi Difusi Stabil.
Versi perangkat lunak yang lebih baru, Stable Diffusion 2.0, dilatih pada data yang secara substansial menyaring materi “tidak aman” dalam kumpulan data, sehingga mempersulit pengguna untuk menghasilkan gambar eksplisit.
Namun Stable Diffusion 1.5 menghasilkan konten seksual eksplisit dan masih digunakan di beberapa sudut internet.
Juru bicaranya mengatakan Stable Diffusion 1.5 tidak dirilis oleh Stability AI, melainkan oleh Runway, sebuah startup video AI yang membantu membuat versi asli Stable Diffusion. Runway mengatakan itu dirilis bekerja sama dengan Stability AI.
LAION-5B sendiri dirilis pada 2022 dan mengandalkan kode HTML mentah yang dikumpulkan oleh lembaga nonprofit California untuk menemukan lokasi gambar di web dan mengaitkannya dengan teks deskriptif.
Selama berbulan-bulan, rumor bahwa kumpulan data berisi gambar ilegal telah beredar di forum diskusi dan media sosial.
“Sejauh yang kami tahu, ini adalah upaya pertama untuk mengukur dan memvalidasi kekhawatiran,” kata David Thiel, kepala ahli teknologi di Stanford Internet Observatory, dalam sebuah wawancara dengan Bloomberg News.