Hotline Redaksi: 0817-21-7070 (WA/Telegram)
Viral

Penerus Fitur Tengara untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang – Majalah Time.com

×

Penerus Fitur Tengara untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang – Majalah Time.com

Sebarkan artikel ini
Penerus Fitur Tengara untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang – Majalah Time.com

[ad_1]

Sebuah mobil self-driving harus mampu menjelajahi kota baru sehingga dapat belajar untuk melintasi dari lokasi awal ke tujuan manapun, masalah yang dikenal sebagai goal-conditioned. pembelajaran penguatan (GCRL).

Sebuah makalah baru-baru ini mengusulkan pendekatan baru untuk mempelajari agen yang dapat menangani tugas GCRL jangka panjang.

Para peneliti menggunakan fitur penerus (SF), representasi yang menangkap dinamika transisi, untuk menentukan metrik jarak baru. Metrik berfungsi sebagai perkiraan jarak dan memungkinkan perhitungan fungsi yang dikondisikan tujuan tanpa pembelajaran lebih lanjut.

Sebuah komponen pembelajaran mandiri tunggal yang menangkap SF digunakan untuk membangun semua komponen kerangka perencanaan berbasis grafik. Ini memungkinkan berbagi pengetahuan antara setiap modul dan menstabilkan pembelajaran secara keseluruhan. Terlihat bahwa pendekatan yang diusulkan mengungguli garis dasar navigasi canggih, terutama ketika tujuan terjauh.

Beroperasi di dunia nyata seringkali membutuhkan agen untuk belajar tentang lingkungan yang kompleks dan menerapkan pemahaman ini untuk mencapai tujuan yang luas. Masalah ini, yang dikenal sebagai pembelajaran penguatan terkondisi tujuan (GCRL), menjadi sangat menantang untuk tujuan jangka panjang. Metode saat ini telah mengatasi masalah ini dengan menambahkan kebijakan yang dikondisikan tujuan dengan algoritma perencanaan berbasis grafik. Namun, mereka berjuang untuk menskalakan ke ruang keadaan dimensi tinggi yang besar dan mengasumsikan akses ke mekanisme eksplorasi untuk mengumpulkan data pelatihan secara efisien. Dalam karya ini, kami memperkenalkan Successor Feature Landmarks (SFL), sebuah kerangka kerja untuk menjelajahi lingkungan besar berdimensi tinggi untuk mendapatkan kebijakan yang sesuai untuk tujuan apa pun. SFL memanfaatkan kemampuan fitur penerus (SF) untuk menangkap dinamika transisi, menggunakannya untuk mendorong eksplorasi dengan memperkirakan kebaruan keadaan dan untuk memungkinkan perencanaan tingkat tinggi dengan mengabstraksi ruang keadaan sebagai grafik berbasis landmark non-parametrik. Kami selanjutnya mengeksploitasi SF untuk secara langsung menghitung kebijakan yang dikondisikan tujuan untuk traversal antar-landmark, yang kami gunakan untuk menjalankan rencana untuk “memperbatasan” landmark di tepi ruang negara yang dieksplorasi. Kami menunjukkan dalam eksperimen kami pada MiniGrid dan ViZDoom bahwa SFL memungkinkan eksplorasi yang efisien dari ruang keadaan dimensi tinggi yang besar dan mengungguli baseline canggih pada tugas GCRL cakrawala panjang.

Makalah penelitian: Hoang, C., Sohn, S., Choi, J., Carvalho, W., dan Lee, H., “Tanda Penanda Fitur Penerus untuk Pembelajaran Penguatan Berkondisi Tujuan Jangka Panjang”, 2021. Tautan: https://arxiv.org/abs/2111.09858



[ad_2]

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

pola jam hoki mahjong black scatter surabaya raih 688 juta

gates of olympus 1000 meledak 912 juta pemain medan

scatter wild emas 7 kali beruntun pemain bali 555 juta

gold bonanza ngamuk 10 putaran semarang raup 701 juta

trik putaran ganjil mahjong black scatter yogyakarta 599 juta

pola gelap olympus 1000 kakek merah palembang 834 juta

25 spin gold bonanza scatter bombardir makassar 645 juta

mahjong black scatter mode sultan menang 750 juta malang

scatter emas turun terus bandung barat dapat 489 juta

gates of olympus 1000 petir merah strategi lampung 950 juta

tracon 200juta scatter hitam mahjong

pola tracon mahjong2 maxwin

tracon rekor scatter hujan

trik tracon auto cuan mahjong3

pola scatter wild tracon jam hoki

tracon analisis scatter hitam hoki

anti rungkad tracon mahjong basah

tantangan tracon 1juta lipatganda

scatter wild vs hitam tracon eksperimen

strategi tracon kemenangan konsisten

dina pegbinangkab scatter hitam koi gate 500 juta

rian pegbinangkab pola maxwin starlight princess x500

siska pegbinangkab rekor scatter hujan emas

bima pegbinangkab trik jackpot gates of olympus

dewi pegbinangkab pola scatter wild jam gacor

strategi game online mesin cuan keuntungan besar

pola scatter hitam menang tersembunyi jackpot rahasia

trik kuasai rtp efektif panduan kemenangan terjamin

karyawan bank raup 98 juta kisah sukses pola permainan

trik aguan raup 1 3 miliar strategi spin akurat investor

rahasia pola akurat investor keuntungan maksimal

rtp bisnis investasi pendek strategi hasil cepat

game online pola pikir miliarder hobi jadi kekayaan

pola ujang rtp 98 trik kemenangan akurat

tips kuasai rtp kemenangan trik konsisten untung

pola rahasia starlight princess jam gacor jackpot anti rungkad

trik wild west gold strategi bet kecil hasilkan 5 juta cepat

cara kerja rtp gates olympus kakek zeus data lapangan

strategi slow spin sweet bonanza multiplier x100 analisa akurat

cuan toolkit mahjong ways 2 scatter hitam trending pemula

mahjong ways rahasia mahasiswa kaya mendadak

mahjong wins 3 pola scatter hitam viral

rtp live tertinggi malam ini analisis akurat

pola rtp rahasia jebol jackpot ratusan juta

pola habanero anti rungkad karyawan kaya mendadak

aztec gems strategi sultan spin turbo maxwin

sweet bonanza sopir ojol ubah nasib bayaran x100

fenomena scatter hitam heboh rahasia terbongkar

koi gate modal receh cuan maksimal ratusan juta

gates of olympus trik petir x500 waktu hoki kakek zeus