[ad_1]
Bahasa Afrika tidak terlalu populer dalam ilmu komputer. Sementara Afrika adalah benua besar dan ada banyak pengguna komputer di sana, bisnis biasanya dilakukan dalam salah satu bahasa internasional lain yang lebih populer. Tetapi komputer akan mempelajari beberapa bahasa Afrika yang lebih sulit dengan sedikit bantuan dari kecerdasan buatan (AI).
Bukannya ilmuwan komputer tidak tertarik pada bahasa Afrika atau menolaknya. Hanya saja ada begitu banyak bahasa yang berbeda di dunia dan beberapa pasti kurang mendapat perhatian. Apa pun alasannya, para ilmuwan di University of Waterloo memperhatikan bahwa hanya sedikit kemampuan pemrosesan bahasa alami yang tersedia untuk wilayah Afrika yang luas. Dan di situlah AfriBERTa masuk.
AfriBERTa adalah model bahasa jaringan saraf baru, yang menggunakan teknik pembelajaran mendalam dan memungkinkan komputer melakukan banyak tugas berbeda dengan menerima instruksi dalam bahasa Afrika sumber daya rendah. Nah untuk saat ini AfriBERTa bekerja dengan 11 bahasa Afrika, termasuk Amharik, Hausa, dan Swahili. Kedengarannya tidak banyak, tetapi para ilmuwan memperkirakan bahwa lebih dari 400 juta orang berbicara bahasa itu. Dan orang-orang itu akan senang mengetahui bahwa AfriBERTa mencapai kualitas keluaran yang serupa dengan model lain yang ada meskipun belajar hanya dari satu gigabyte teks. Model pemrosesan bahasa terbaik menggunakan ribuan kali lebih banyak data untuk mencapai tingkat kualitas ini, tetapi itulah keindahan AI – dalam kasus seperti ini, ia benar-benar dapat meningkatkan efisiensi.
Dan alasan mengapa AfriBERTa harus bekerja dengan satu gigabyte teks adalah karena lebih banyak data mungkin tidak tersedia. Tidak banyak teks digital dalam bahasa tersebut untuk dianalisis. Tapi itu baru permulaan karena AI akan terus belajar – ini pada dasarnya hanya tahap pra-pelatihan.
Jimmy Lin, salah satu ilmuwan dalam penelitian ini, mengatakan: “Mampu melatih model yang sama akuratnya untuk tugas-tugas hilir tertentu, tetapi menggunakan jumlah data yang jauh lebih kecil memiliki banyak keuntungan. Memerlukan lebih sedikit data untuk melatih model bahasa berarti lebih sedikit komputasi yang diperlukan dan akibatnya menurunkan emisi karbon yang terkait dengan pengoperasian pusat data yang masif. Kumpulan data yang lebih kecil juga membuat kurasi data lebih praktis, yang merupakan salah satu pendekatan untuk mengurangi bias yang ada dalam model”.
Kecerdasan buatan sangat bagus karena mampu belajar dan beradaptasi dengan sangat cepat. Itu dapat menganalisis sejumlah besar data dan menggunakan informasi itu untuk mengisi celah di mana data hilang. Dan AfriBERTa baru saja dimulai – ini hanyalah langkah untuk membawa lebih dari 1,3 miliar orang di benua Afrika lebih dekat ke tingkat kemampuan TI mereka yang tepat.
Sumber: Universitas Waterloo
[ad_2]