[ad_1]
Model bahasa harus menghasilkan proposisi yang andal dan koheren. Bahkan, mereka sering menghasilkan konten yang tidak logis dan kontradiktif.
Metode yang diusulkan bertujuan untuk meningkatkan kemampuan interpretasi model bahasa dan penilaian hubungan dunia nyata. Kredit gambar: chenspec melalui Pixabay, lisensi gratis
Sebuah makalah baru-baru ini diterbitkan di arXiv.org mengusulkan untuk memecahkan masalah ini dengan menggabungkan model bahasa autoregresif dengan grafik pengetahuan.
Para peneliti merancang arsitektur yang ditambah memori yang menyimpan hubungan dari grafik pengetahuan dan menyelidiki efek pengkondisian pada memori relasional ini dalam model bahasa autoregresif. Relasi diambil untuk entitas menonjol yang dipilih dari konteks. Sebuah fungsi gating kemudian dirancang untuk menggabungkan informasi dari hubungan yang diekstraksi dan konteks tekstual yang diamati untuk memprediksi token berikutnya.
Metode yang diusulkan memungkinkan menghasilkan teks didasarkan pada hubungan dunia nyata. Hal ini juga menunjukkan bahwa representasi proposisional eksplisit meningkatkan interpretabilitas model bahasa.
Kami menyajikan pendekatan tambahan memori untuk mengkondisikan model bahasa autoregresif pada grafik pengetahuan. Kami merepresentasikan grafik sebagai kumpulan relasi tiga kali lipat dan mengambil relasi yang relevan untuk konteks tertentu guna meningkatkan pembuatan teks. Eksperimen pada kumpulan data bahasa Inggris WikiText-103, WMT19, dan enwik8 menunjukkan bahwa pendekatan kami menghasilkan model bahasa yang lebih baik dalam hal kebingungan dan bit per karakter. Kami juga menunjukkan bahwa memori relasional meningkatkan koherensi, melengkapi memori berbasis token, dan memungkinkan intervensi kausal. Model kami menyediakan cara sederhana namun efektif untuk menggabungkan model bahasa autoregresif dengan grafik pengetahuan untuk generasi yang lebih koheren dan logis.
Makalah penelitian: Liu, Q., Yogatama, D., dan Blunsom, P., “Model Bahasa Augmented Memori Relasional”, 2022. Tautan: https://arxiv.org/abs/2201.09680
[ad_2]






