[ad_1]
Kumpulan data besar dari pasangan gambar-teks dari web digunakan untuk mentransfer aplikasi pembelajaran di visi komputer. Namun, mereka harus menerapkan langkah-langkah pemfilteran yang rumit untuk menangani data web yang berisik.
Sebuah studi baru-baru ini di arXiv.org menyelidiki cara mendapatkan data teks gambar berkualitas tinggi dari web tanpa penyaringan data yang rumit.
Para peneliti menyarankan menggunakan Reddit untuk mengumpulkan pasangan gambar-teks. Gambar dan keterangannya dikumpulkan di subreddit khusus topik. Salah satu keuntungan dari kumpulan data adalah keragaman bahasa: teks dari Reddit umumnya lebih alami dan bervariasi daripada teks alternatif HTML. Subreddits menyediakan label gambar tambahan dan konten terkait grup. Itu memungkinkan peneliti untuk mengarahkan konten kumpulan data tanpa memberi label pada masing-masing instance.
Dataset yang diusulkan berguna untuk mempelajari representasi visual yang ditransfer ke tugas-tugas hilir seperti klasifikasi gambar atau deteksi objek.
Kumpulan data besar dari gambar dan teks berpasangan menjadi semakin populer untuk mempelajari representasi umum untuk tugas visi dan visi-dan-bahasa. Kumpulan data semacam itu telah dibuat dengan menanyakan mesin telusur atau mengumpulkan teks alt HTML — karena data web berisik, mereka memerlukan saluran pemfilteran yang rumit untuk mempertahankan kualitas. Kami menjelajahi sumber data alternatif untuk mengumpulkan data berkualitas tinggi dengan pemfilteran minimal. Kami memperkenalkan RedCaps — kumpulan data skala besar dari 12 juta pasangan teks gambar yang dikumpulkan dari Reddit. Gambar dan keterangan dari Reddit menggambarkan dan menggambarkan berbagai macam objek dan pemandangan. Kami mengumpulkan data dari kumpulan subreddit yang dikuratori secara manual, yang memberikan label gambar kasar dan memungkinkan kami mengarahkan komposisi kumpulan data tanpa memberi label pada masing-masing instance. Kami menunjukkan bahwa model teks yang dilatih di RedCaps menghasilkan teks yang kaya dan beragam yang disukai oleh manusia, dan mempelajari representasi visual yang mentransfer ke banyak tugas hilir.
Makalah penelitian: Desai, K., Kaul, G., Aysola, Z., dan Johnson, J., “RedCaps: data teks gambar yang dikuratori web yang dibuat oleh orang-orang, untuk orang-orang”, 2021. Tautan ke artikel: https://arxiv.org/abs/2111.11431
Tautan ke situs proyek: https://redcaps.xyz/
[ad_2]