[ad_1]
Manusia bisa dengan mudah melokalisasi objek yang terdengar dan mengenali kategori mereka. Sebuah makalah baru-baru ini diterbitkan di arXiv.org menyelidiki bagaimana kecerdasan mesin juga bisa mendapatkan keuntungan dari korespondensi audiovisual tersebut.
Kredit gambar: Wikimedia Commons, Domain Publik melalui Rawpixel
Para peneliti mengusulkan kerangka kerja pembelajaran langkah demi langkah dua tahap untuk mengejar pelokalan objek yang terdengar berdasarkan kelas, mulai dari skenario suara tunggal dan kemudian berkembang ke kasus pesta koktail.
Korespondensi antara representasi visual objek dan pengetahuan kategori diperoleh hanya dengan menggunakan penyelarasan antara audio dan penglihatan sebagai pengawasan. Kurikulum memungkinkan menyaring objek diam dalam skenario yang kompleks. Eksperimen menunjukkan bahwa metode ini menyelesaikan tugas dalam adegan musik serta dalam kasus yang lebih sulit di mana objek yang sama dapat menghasilkan suara yang berbeda. Selanjutnya, kerangka lokalisasi objek yang dipelajari dari konsistensi audiovisual dapat diterapkan pada tugas deteksi objek.
Adegan audiovisual meresap dalam kehidupan kita sehari-hari. Merupakan hal yang biasa bagi manusia untuk secara diskriminatif melokalisasi objek bersuara berbeda tetapi cukup menantang bagi mesin untuk mencapai pelokalan objek bersuara kelas-sadar tanpa anotasi kategori, yaitu, melokalkan objek bersuara dan mengenali kategorinya. Untuk mengatasi masalah ini, kami mengusulkan kerangka kerja pembelajaran dua tahap langkah demi langkah untuk melokalisasi dan mengenali objek yang terdengar dalam skenario audiovisual yang kompleks hanya dengan menggunakan korespondensi antara audio dan penglihatan. Pertama, kami mengusulkan untuk menentukan area suara melalui korespondensi audiovisual berbutir kasar dalam kasus sumber tunggal. Kemudian fitur visual di area suara dimanfaatkan sebagai kandidat representasi objek untuk membuat kamus objek kategori-representasi untuk ekstraksi karakter visual ekspresif. Kami menghasilkan peta pelokalan objek yang sadar kelas dalam skenario pesta koktail dan menggunakan korespondensi audiovisual untuk menekan area sunyi dengan merujuk ke kamus ini. Terakhir, kami menggunakan konsistensi audiovisual tingkat kategori sebagai pengawasan untuk mencapai keselarasan distribusi objek audio dan suara yang halus. Eksperimen pada video yang realistis dan yang disintesis menunjukkan bahwa model kami lebih unggul dalam melokalisasi dan mengenali objek serta memfilter objek yang tidak bersuara. Kami juga mentransfer jaringan audiovisual yang dipelajari ke dalam tugas deteksi objek tanpa pengawasan, sehingga memperoleh kinerja yang wajar.
Makalah penelitian: Hu, D., Wei, Y., Qian, R., Lin, W., Song, R., dan Wen, J.-R., “Lokalisasi Objek Suara Sadar Kelas melalui Korespondensi Audiovisual”, 2021. Tautan: https://arxiv.org/abs/2112.11749
[ad_2]