[ad_1]
Untuk memecahkan tugas visi komputer yang kompleks, machine learning yang diawasi membutuhkan set data berlabel besar. Namun, gambar dunia nyata hanya berisi keragaman aktivitas manusia yang terbatas.
Masalah privasi dan etika juga membatasi pengumpulan data manusia. Oleh karena itu, penelitian terbaru di arXiv.org mengusulkan generator data sintetik yang berpusat pada manusia.
Kredit gambar: geralt melalui Pixabay, lisensi gratis
Ini berisi berbagai model manusia 3D dengan karakteristik variabel. Satu set objek primitif disediakan untuk bertindak sebagai distraktor dan occluders. Selanjutnya, para peneliti memberikan kontrol yang baik atas pencahayaan, pengaturan kamera, dan efek pasca-pemrosesan. Selain itu, proyek template Unity dirilis untuk menurunkan hambatan masuk bagi komunitas dengan membantu mereka membuat versi mereka sendiri dari generator data yang berpusat pada manusia.
Generator yang diusulkan memungkinkan berbagai penelitian ke dalam simulasi untuk kesenjangan domain realitas, seperti strategi pelatihan model atau pencarian data hyper-parameter.
Dalam beberapa tahun terakhir, deteksi orang dan estimasi pose manusia telah membuat langkah besar, dibantu oleh kumpulan data berlabel skala besar. Namun, kumpulan data ini tidak memiliki jaminan atau analisis aktivitas manusia, pose, atau keragaman konteks. Selain itu, masalah privasi, hukum, keamanan, dan etika dapat membatasi kemampuan untuk mengumpulkan lebih banyak data manusia. Alternatif yang muncul untuk data dunia nyata yang meringankan beberapa masalah ini adalah data sintetis. Namun, pembuatan generator data sintetis sangat menantang dan menghalangi peneliti untuk mengeksplorasi kegunaannya. Oleh karena itu, kami merilis generator data sintetis yang berpusat pada manusia PeopleSansPeople yang berisi aset manusia 3D siap simulasi, sistem pencahayaan dan kamera berparameter, dan menghasilkan kotak pembatas 2D dan 3D, segmentasi instans dan semantik, serta label pose COCO. Menggunakan PeopleSansPeople, kami melakukan pelatihan data sintetik benchmark menggunakan varian Detectron2 Keypoint R-CNN [1]. Kami menemukan bahwa pra-pelatihan jaringan menggunakan data sintetis dan fine-tuning pada target data dunia nyata (transfer beberapa tembakan ke subset terbatas kereta COCO-orang [2]) menghasilkan AP keypoint dari 60.37±0,48 (COCO test-dev2017) mengungguli model yang dilatih dengan data nyata yang sama saja (AP kunci dari 55.80) dan telah dilatih sebelumnya dengan ImageNet (AP keypoint dari 57.50). Generator data yang tersedia secara bebas ini harus memungkinkan berbagai penelitian ke bidang simulasi yang muncul ke pembelajaran transfer nyata di area kritis visi komputer yang berpusat pada manusia.
Makalah penelitian: Erfanian Ebadi, S., “PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer Vision”, 2021. Tautan: https://arxiv.org/abs/2112.09290
[ad_2]