Afrika Memiliki Ribuan Bahasa, Bisakah AI Dilatih untuk Semua Bahasa Tersebut?

ORBITINDONESIA.COM - Bagaimana Anda mengajari seseorang membaca suatu bahasa jika tidak ada bahan bacaan untuk mereka? Inilah masalah yang dihadapi para pengembang di seluruh benua Afrika yang mencoba melatih AI untuk memahami dan menanggapi perintah dalam bahasa lokal.

Untuk melatih model bahasa, Anda membutuhkan data. Untuk bahasa seperti Inggris, artikel, buku, dan manual yang mudah diakses di internet memberi para pengembang pasokan yang siap pakai. Tetapi untuk sebagian besar bahasa Afrika — yang diperkirakan berjumlah antara 1.500 dan 3.000 — hanya sedikit sumber daya tertulis yang tersedia.

Vukosi Marivate, seorang profesor ilmu komputer di Universitas Pretoria, Afrika Selatan, menggunakan jumlah artikel Wikipedia yang tersedia untuk menggambarkan jumlah data yang tersedia. Untuk bahasa Inggris, ada lebih dari 7 juta artikel. Tigrinya, yang dituturkan oleh sekitar 9 juta orang di Ethiopia dan Eritrea, memiliki 335 artikel. Untuk Akan, bahasa asli yang paling banyak digunakan di Ghana, tidak ada satu pun.

Dari ribuan bahasa tersebut, hanya 42 yang saat ini didukung dalam model bahasa. Dari 23 aksara dan alfabet Afrika, hanya tiga—Latin, Arab, dan Ge’Ez (digunakan di Tanduk Afrika)—yang tersedia.

Keterbelakangan ini “berasal dari sudut pandang finansial,” kata Chinasa T. Okolo, pendiri Technēculturǎ, sebuah lembaga penelitian yang berupaya memajukan kesetaraan global dalam AI. “Meskipun penutur bahasa Swahili lebih banyak daripada penutur bahasa Finlandia, Finlandia merupakan pasar yang lebih baik bagi perusahaan seperti Apple dan Google.”

Jika lebih banyak model bahasa tidak dikembangkan, dampaknya di seluruh benua bisa sangat buruk, Okolo memperingatkan. “Kita akan terus melihat orang-orang terpinggirkan dari kesempatan,” katanya kepada CNN. Saat benua ini berupaya mengembangkan infrastruktur dan kemampuan AI-nya sendiri, mereka yang tidak berbicara salah satu dari 42 bahasa ini berisiko tertinggal.

Untuk menghindari hal ini, Okolo mengatakan para pengembang AI di seluruh benua “harus membayangkan kembali cara kita melakukan pengembangan model sejak awal.”

Inilah yang telah dilakukan Marivate. Marivate memimpin cabang Afrika Selatan dari proyek African Next Voices, yang telah membuat rekaman 18 bahasa di Afrika Selatan, Kenya, dan Nigeria. Selama dua tahun, ketiga tim mengumpulkan 9.000 jam rekaman dari orang-orang dari berbagai usia dan lokasi, menciptakan kumpulan data yang akan tersedia bagi pengembang AI di seluruh benua untuk digunakan dalam melatih model.

Para peneliti terkadang memberikan naskah kepada penutur asli untuk dibaca, tetapi sebagian besar memberi mereka petunjuk dan merekam tanggapan mereka, yang kemudian ditranskripsikan. Untuk bahasa Isindebele, yang dituturkan di Afrika Selatan dan Zimbabwe, mereka mengalami kesulitan menemukan sumber tertulis sehingga mereka menggunakan buku panduan pemerintah untuk penggembala kambing untuk membantu menulis petunjuk mereka.

African Next Voices belum mengumpulkan cukup data untuk melatih model bahasa besar (LLM) seperti ChatGPT atau Gemini, yang dapat mencakup ribuan topik secara detail. Namun, Marivate mengatakan mereka memfokuskan rekaman mereka pada topik-topik tertentu, seperti kesehatan dan pertanian, yang dianggap paling penting.

Model Khusus

Menggunakan kumpulan data kecil untuk membuat model umum akan menghasilkan tingkat kesalahan yang tinggi, tetapi kumpulan data kecil dan terfokus dapat sangat akurat dalam lingkup terbatas dari model khusus, jelas Nyalleng Moorosi, seorang peneliti di Distributed AI Research Institute (DAIR), yang tidak berafiliasi dengan proyek African Next Voices.

Baginya, ini adalah masalah "memprioritaskan kesalahan." "Jika seseorang hanya ingin mengetahui apa yang terjadi di pusat kota Nairobi, saya dapat mentolerir kesalahan di sana," kata Moorosi, tetapi kesalahan dalam model yang membahas topik seperti perbankan atau perawatan kesehatan dapat memiliki konsekuensi serius.

"Kita perlu memastikan bahwa orang-orang yang membangun model ini memahami konsekuensinya, mereka cukup memahami budaya untuk memahami bobot kesalahan ini," kata Moorosi kepada CNN.

Kata dan simbol, katanya, memiliki banyak arti. Salib St. George, misalnya, memiliki asosiasi dengan politik sayap kanan di Inggris yang tidak jelas bagi seseorang dari Ghana atau Lesotho. Masalah ini sangat umum terjadi pada bahasa-bahasa dengan sumber daya terbatas. “Ada banyak pengetahuan kontekstual, tetapi sedikit dokumentasi,” katanya.

Sebuah studi oleh DAIR menemukan bahwa situs web media sosial gagal mengenali dan menghapus ujaran kebencian terkait kekerasan etnis di Ethiopia sebagian karena sistem otomatis dan moderator manusia tidak familiar dengan istilah slang yang digunakan.

Moorosi mengatakan bahwa tanpa pemahaman budaya ini, mustahil untuk membuat “sistem AI berkinerja dan membuat penilaian yang selaras dengan keyakinan dan nilai-nilai kita.”

Meskipun banyak orang Afrika berbicara banyak bahasa, termasuk bahasa Afrika dan Eropa yang sudah didukung oleh model bahasa, Moorosi percaya bahwa tujuannya adalah untuk membuat AI dapat diakses dalam semua bahasa, “bahkan untuk bahasa yang hanya memiliki satu penutur. Semua bahasa layak untuk diwakili atau dilestarikan.” ***