Penerus Fitur Tengara untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang – Majalah Time.com

  • Whatsapp


Sebuah mobil self-driving harus mampu menjelajahi kota baru sehingga dapat belajar untuk melintasi dari lokasi awal ke tujuan manapun, masalah yang dikenal sebagai goal-conditioned. pembelajaran penguatan (GCRL).

Bacaan Lainnya

Sebuah makalah baru-baru ini mengusulkan pendekatan baru untuk mempelajari agen yang dapat menangani tugas GCRL jangka panjang.

Para peneliti menggunakan fitur penerus (SF), representasi yang menangkap dinamika transisi, untuk menentukan metrik jarak baru. Metrik berfungsi sebagai perkiraan jarak dan memungkinkan perhitungan fungsi yang dikondisikan tujuan tanpa pembelajaran lebih lanjut.

Sebuah komponen pembelajaran mandiri tunggal yang menangkap SF digunakan untuk membangun semua komponen kerangka perencanaan berbasis grafik. Ini memungkinkan berbagi pengetahuan antara setiap modul dan menstabilkan pembelajaran secara keseluruhan. Terlihat bahwa pendekatan yang diusulkan mengungguli garis dasar navigasi canggih, terutama ketika tujuan terjauh.

Beroperasi di dunia nyata seringkali membutuhkan agen untuk belajar tentang lingkungan yang kompleks dan menerapkan pemahaman ini untuk mencapai tujuan yang luas. Masalah ini, yang dikenal sebagai pembelajaran penguatan terkondisi tujuan (GCRL), menjadi sangat menantang untuk tujuan jangka panjang. Metode saat ini telah mengatasi masalah ini dengan menambahkan kebijakan yang dikondisikan tujuan dengan algoritma perencanaan berbasis grafik. Namun, mereka berjuang untuk menskalakan ke ruang keadaan dimensi tinggi yang besar dan mengasumsikan akses ke mekanisme eksplorasi untuk mengumpulkan data pelatihan secara efisien. Dalam karya ini, kami memperkenalkan Successor Feature Landmarks (SFL), sebuah kerangka kerja untuk menjelajahi lingkungan besar berdimensi tinggi untuk mendapatkan kebijakan yang sesuai untuk tujuan apa pun. SFL memanfaatkan kemampuan fitur penerus (SF) untuk menangkap dinamika transisi, menggunakannya untuk mendorong eksplorasi dengan memperkirakan kebaruan keadaan dan untuk memungkinkan perencanaan tingkat tinggi dengan mengabstraksi ruang keadaan sebagai grafik berbasis landmark non-parametrik. Kami selanjutnya mengeksploitasi SF untuk secara langsung menghitung kebijakan yang dikondisikan tujuan untuk traversal antar-landmark, yang kami gunakan untuk menjalankan rencana untuk “memperbatasan” landmark di tepi ruang negara yang dieksplorasi. Kami menunjukkan dalam eksperimen kami pada MiniGrid dan ViZDoom bahwa SFL memungkinkan eksplorasi yang efisien dari ruang keadaan dimensi tinggi yang besar dan mengungguli baseline canggih pada tugas GCRL cakrawala panjang.

Makalah penelitian: Hoang, C., Sohn, S., Choi, J., Carvalho, W., dan Lee, H., “Tanda Penanda Fitur Penerus untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang”, 2021. Tautan: https://arxiv.org/abs/2111.09858



Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *