Berita

Ilustrasi. (Foto: Artificial Intelligence)

Publika

AI Hebat, Data Sekarat

MINGGU, 12 APRIL 2026 | 06:39 WIB | OLEH: AHMADIE THAHA

DI sebuah pagi yang tampak biasa di kampus Universitas Gadjah Mada (UGM) Yogyakarta, sejarah kecil terjadi. Bukan karena demonstrasi mahasiswa yang mengguncang pagar kampus, bukan pula karena berlangsung seminar yang penuh jargon dan kopi dingin.

Pagi itu, di hari yang sama, sepasang suami-istri, Prof. Edi Winarko dan Prof. Tutik Dwi Wahyuningsih, berdiri sejajar dan bersama mencapai puncak akademik yaitu guru besar. Di negeri yang sering lebih sibuk mengejar gelar ketimbang mengejar mutu, momen ini terasa seperti anomali yang menyenangkan, sekaligus menyentil diam-diam.

Namun yang lebih penting dari seremoni itu bukanlah toga, bukan pula pidato ucapan terima kasih penuh haru. Melainkan satu gagasan yang, jika ditarik sampai ke ujungnya, bisa membuat kita sedikit gelisah bahwa artificial intelligence atau akal imitasi (AI) ternyata ditentukan bukan terutama oleh kecerdasan mesin, tapi oleh kualitas data yang kita berikan.


Dalam pidato ilmiahnya yang berjudul “Data Berkualitas, AI Berdaya: Pentingnya Pendekatan Data-Centric dalam Penerapan Kecerdasan Buatan di Dunia Nyata”, Prof. Edi Winarko menjelaskan pergeseran penting dalam dunia AI, sekaligus memberi kita sentilan tentang posisi kita dalam bidang akal imitasi ini.

Selama ini, perkembangan AI lebih banyak didorong oleh pendekatan model-centric, yaitu memperbaiki algoritma, menambah kompleksitas arsitektur, dan memperbesar jumlah parameter. Dari Convolutional Neural Network (CNN) hingga transformer, semua berlomba menjadi lebih pintar.

Namun, menurut beliau, persoalan utama di lapangan sering kali bukan pada model, melainkan pada data. Model yang sama bisa menghasilkan performa sangat berbeda jika dilatih dengan data yang berbeda.

Karena itu, pendekatan data-centric menjadi krusial. Di sini, data harus dibersihkan, distandardisasi, diberi label dengan benar, dan terus diperbaiki kualitasnya. AI dianalogikan seperti mobil balap. Mesin boleh canggih, tapi tanpa bahan bakar berkualitas, ia hanya akan berputar di tempat.

Masalahnya, kita ini seperti bangsa yang bangga membeli mobil balap, tapi mengisinya dengan bensin eceran. Punya mobil Mercy, tapi diisi bensin oplosan di perempatan jalan. Lebih tragis lagi, kita sibuk memoles bodinya, sementara mesinnya dibiarkan batuk-batuk.

Dunia hari ini memang sedang mabuk model. Model, maksudnya, adalah hasil dari proses belajar dari data. Ia bukan data itu sendiri, melainkan pola yang diserap dari data. Jadi kalau data adalah buku-buku yang dibaca, maka model adalah isi kepala setelah membaca semua buku itu.

Dalam bahasa sangat sederhana, model AI itu seperti “otak buatan” yang belajar dari pengalaman. Bayangkan seorang anak kecil. Ia belum tahu apa itu kucing. Lalu ia melihat banyak gambar kucing, mendengar orang menyebut “ini kucing”, dan perlahan ia bisa mengenali kucing tanpa diajari rumus apa pun.

Proses belajar itu menghasilkan “pemahaman” di dalam kepalanya. Itulah analoginya dengan model. Nama-nama seperti OpenAI, Google, Meta, Microsoft, dan Alibaba disebut dengan penuh kekaguman, karena menghasilkan model-model kuat melalui proses training dan fine-tuning atas data.

Kita bicara tentang GPT, Gemini, LLaMA, DeepSeek, Qwen, Gemma, dan berbagai model besar lain seakan-akan itu adalah puncak peradaban manusia. Kita membahas fine-tuning, inference, dan latency seperti sedang membaca kitab suci teknologi. Namun kita lupa satu hal sederhana bahwa semuanya hidup dari data.

Lalu di tengah kehebatan raksasa tadi, kita heran, mengapa kita bangsa Indonesia seolah tak punya data. Lihat saja, misalnya di bidang text-to-speech (TTS) kelas dunia, jarang yang benar-benar fasih berbahasa Indonesia. Itu karena model-model TTS tidak memiliki dataset bahasa Indonesia yang memadai.

Di titik ini, ironi kita menjadi agak lucu, sekaligus menyedihkan. Kita ribut memilih model terbaik, padahal datanya tidak siap. Kita berdebat GPT mana paling canggih, tapi korpus bahasa sendiri berantakan. Kita ingin suara AI terdengar “Indonesia banget”, tapi tak pernah serius mengumpulkan suara orang Indonesia.

Ibarat mau bikin rendang kelas dunia, tapi dagingnya pinjam, santannya impor, dan bumbunya hasil googling.

Model-model TTS seperti WaveNet dari Google, VALL-E dari Microsoft, Voicebox dari Meta, hingga sistem suara dari OpenAI atau ElevenLabs, menghadirkan bahasa Indonesia setengah hati. Kadang ada, tapi terasa kaku. Kadang tidak ada sama sekali.

Jika pun berbicara, terdengar seperti turis asing yang baru tiga hari belajar mengucapkan “ngopi”. Masih bisa dipahami, tapi rasa Indonesianya terasa “asing”. Ini bukan karena mereka tidak mampu, melainkan karena kita tidak memberi mereka data untuk dipelajari.

Mari tengok lebih jauh. Kontribusi riset AI Indonesia masih relatif kecil dalam lanskap global. Dalam berbagai laporan internasional, jumlah publikasi ilmiah Indonesia di bidang AI berada di bawah satu persen dari total dunia. Bukan hanya soal jumlah, tetapi juga soal kualitas dan dampaknya.

Lalu kita bertanya, “di mana masalahnya?”

Apakah kita kekurangan data? Rasanya tidak. Kita punya jutaan dokumen, dari artikel berita, karya sastra, kitab-kitab klasik, hingga ceramah keagamaan yang tersebar di berbagai platform. Kita punya ratusan bahasa daerah dengan kekayaan ekspresi yang luar biasa. Kita punya percakapan sehari-hari yang hidup dan dinamis.

Masalahnya, semua itu tidak menjadi dataset. Ia hanya menjadi tumpukan. Kalau pun ada, sering kali tidak berkualitas. Data berkualitas itu bukan sekadar banyak. Ia harus bersih dari kesalahan, konsisten dalam format, jelas dalam konteks, dan terkurasi dengan baik.

Data dari Wikipedia bisa berguna, tapi tidak cukup. Data dari kitab-kitab klasik bisa sangat berharga, tetapi perlu anotasi. Data percakapan bisa memperkaya model, tetapi harus dipilah. Semua itu membutuhkan kerja panjang: mengumpulkan, membersihkan, memberi label, mengevaluasi, dan memperbaiki secara berulang.

Perusahaan-perusahaan besar seperti OpenAI, Google, Meta, Microsoft, dan Alibaba memahami ini dengan sangat serius. Mereka membangun tim khusus untuk kurasi data, membuat pipeline pembersihan, melakukan deduplikasi, dan menetapkan standar kualitas yang ketat. Mereka tidak hanya membangun model.

Mereka merawat data seperti petani merawat sawah. Sementara kita masih sibuk menanam tanpa pernah mencangkul. Bahkan kadang, sawahnya belum jelas, kita sudah sibuk panen wacana.

Padahal, secara teknis, membangun dataset berkualitas untuk bahasa Indonesia bukan hal mustahil. Apalagi jika negara mau turun tangan, dengan alasan strategis sekaligus kultural yakni menjaga bahasa dari kepunahan. BRIN dan Badan Bahasa semestinya terlibat penuh.

Kita bisa menyusun korpus bahasa baku, menambahkan variasi dialek, melibatkan ahli linguistik, dan membuat standar anotasi nasional. Kita bahkan bisa membuka kolaborasi lintas kampus dan lembaga untuk membangun dataset terbuka yang bisa digunakan bersama.

Yang tampaknya lebih sulit justru bukan teknologinya, melainkan ketekunannya, juga political will-nya. Kita terlalu cepat puas menjadi pengguna. Terlalu nyaman menjadi pasar. Kita unduh model, kita pakai, kita kagum, lalu selesai. Seolah-olah masa depan bisa diimpor seperti aplikasi di ponsel.

Padahal, masa depan dibangun dari pekerjaan yang tidak glamor: membersihkan data satu per satu, memberi label dengan sabar, memperbaiki kesalahan kecil yang nyaris tak terlihat, tapi menentukan segalanya.

Di titik ini, pidato Prof. Edi Winarko terasa seperti pengingat yang sunyi namun tajam. Bahwa AI bukan sekadar perlombaan siapa paling pintar membuat model LLM, tetapi siapa paling sabar membangun fondasi data.

Dan mungkin, jika kita jujur, krisis kita bukan krisis teknologi, melainkan krisis ketekunan.

Karena, penting dipahami bahwa AI hanyalah cermin. Ia memantulkan apa yang kita berikan. Jika datanya kacau, hasilnya pun pincang.

Dan jangan heran, jika suatu hari nanti, mesin bisa berbicara dalam ratusan bahasa dunia dengan fasih, tetapi masih tersendat-sendat ketika menyebut: Indonesia.

Populer

Ketika Jenderal Memimpin yang Bukan Bidangnya

Kamis, 04 Juni 2026 | 00:15

Nama Raffi Ahmad Muncul di Sidang Blueray Cargo, Pengacara Minta Pemeriksaan Menyeluruh

Minggu, 07 Juni 2026 | 21:11

Tiga Pensiunan Jenderal Nyungsep Gegara Tersandung Kasus

Jumat, 05 Juni 2026 | 03:16

KPK Dikabarkan OTT Pejabat Imigrasi Jakarta Barat, Diduga Terkait TKA

Rabu, 03 Juni 2026 | 07:33

Rita Widyasari: Dari Suap, Gratifikasi dan TPPU hingga Korporasi Tambang

Rabu, 03 Juni 2026 | 17:07

Dadan Hindayana Kena Batunya

Rabu, 03 Juni 2026 | 01:04

Pakai Jaket Gojek Mulyono di Sidang Pledoi, Nadiem Ingin Seret Jokowi?

Rabu, 03 Juni 2026 | 05:18

UPDATE

BNI Ingatkan Nasabah, Waspada Modus Penipuan BNIdirect

Sabtu, 13 Juni 2026 | 16:06

Diduga Palsukan KTA, Sekjen dan Waketum PPP Dipolisikan

Sabtu, 13 Juni 2026 | 15:47

DPR Nilai Dukungan Publik terhadap Program MBG Tetap Kuat Meski Diterpa Kasus Korupsi

Sabtu, 13 Juni 2026 | 15:09

Seleksi Pejabat Kemenag Kini Makin Ketat, Rekam Jejak Jadi Penentu

Sabtu, 13 Juni 2026 | 15:04

Soal Protes Kenaikan BBM, DPR Ingatkan Harga di Indonesia Masih Relatif Murah

Sabtu, 13 Juni 2026 | 14:34

Program Padat Karya Jaga Daya Beli Masyarakat

Sabtu, 13 Juni 2026 | 14:29

Kejagung: Motor Listrik MBG Bukan untuk Disita, Tapi Segera Disalurkan

Sabtu, 13 Juni 2026 | 14:24

LEMIGAS dan Pertagas Resmi Berkolaborasi di Proyek Cisem II

Sabtu, 13 Juni 2026 | 13:55

Fernando Emas: Waspada Reformasi 1998 Jilid II

Sabtu, 13 Juni 2026 | 13:51

Bank Mandiri Siapkan Rp1,95 Triliun untuk Lunasi Green Bond Seri A

Sabtu, 13 Juni 2026 | 13:33

Selengkapnya