Hotline Redaksi: 0817-21-7070 (WA/Telegram)
Viral

Mesin yang melihat dunia lebih seperti manusia – Majalah Time.com

×

Mesin yang melihat dunia lebih seperti manusia – Majalah Time.com

Sebarkan artikel ini
Mesin yang melihat dunia lebih seperti manusia – Majalah Time.com

[ad_1]

Pendekatan “akal sehat” baru untuk visi komputer memungkinkan kecerdasan buatan yang menafsirkan adegan lebih akurat daripada sistem lain.

Sistem visi komputer terkadang membuat kesimpulan tentang pemandangan yang bertentangan dengan akal sehat. Misalnya, jika robot sedang memproses adegan meja makan, itu mungkin sepenuhnya mengabaikan mangkuk yang terlihat oleh pengamat manusia, memperkirakan bahwa piring mengambang di atas meja, atau salah mengartikan garpu untuk menembus mangkuk daripada bersandar padanya.

Pindahkan sistem penglihatan komputer itu ke mobil yang bisa mengemudi sendiri dan taruhannya menjadi jauh lebih tinggi — misalnya, sistem seperti itu gagal mendeteksi kendaraan darurat dan pejalan kaki yang menyeberang jalan.

Untuk mengatasi kesalahan ini, peneliti MIT telah mengembangkan kerangka kerja yang membantu mesin melihat dunia lebih seperti manusia. Sistem kecerdasan buatan baru mereka untuk menganalisis adegan belajar memahami objek dunia nyata hanya dari beberapa gambar, dan memahami adegan dalam hal objek yang dipelajari ini.

Para peneliti membangun kerangka kerja menggunakan pemrograman probabilistik, pendekatan AI yang memungkinkan sistem untuk memeriksa silang objek yang terdeteksi terhadap data input, untuk melihat apakah gambar yang direkam dari kamera kemungkinan cocok dengan adegan kandidat mana pun. Inferensi probabilistik memungkinkan sistem untuk menyimpulkan apakah ketidaksesuaian kemungkinan disebabkan oleh noise atau kesalahan dalam interpretasi adegan yang perlu diperbaiki dengan pemrosesan lebih lanjut.

Perlindungan yang masuk akal ini memungkinkan sistem untuk mendeteksi dan memperbaiki banyak kesalahan yang mengganggu pendekatan “pembelajaran mendalam” yang juga telah digunakan untuk visi komputer. Pemrograman probabilistik juga memungkinkan untuk menyimpulkan kemungkinan hubungan kontak antara objek dalam adegan, dan menggunakan alasan yang masuk akal tentang kontak ini untuk menyimpulkan posisi objek yang lebih akurat.

“Jika Anda tidak tahu tentang hubungan kontak, maka Anda bisa mengatakan bahwa sebuah objek melayang di atas meja — itu akan menjadi penjelasan yang valid. Sebagai manusia, jelas bagi kita bahwa ini secara fisik tidak realistis dan objek yang diletakkan di atas meja adalah pose objek yang lebih mungkin. Karena sistem penalaran kita mengetahui jenis pengetahuan ini, ia dapat menyimpulkan pose yang lebih akurat. Itu adalah wawasan kunci dari pekerjaan ini, ”kata penulis utama Nishad Gothoskar, mahasiswa PhD teknik elektro dan ilmu komputer (EECS) dengan Proyek Komputasi Probabilistik.

Selain meningkatkan keselamatan mobil self-driving, pekerjaan ini dapat meningkatkan kinerja sistem persepsi komputer yang harus menafsirkan pengaturan objek yang rumit, seperti robot yang bertugas membersihkan dapur yang berantakan.

Rekan penulis Gothoskar termasuk lulusan PhD EECS baru-baru ini, Marco Cusumano-Towner; insinyur penelitian Ben Zinberg; mahasiswa tamu Matin Ghavamizadeh; Falk Pollok, seorang insinyur perangkat lunak di MIT-IBM Watson AI Lab; lulusan master EECS baru-baru ini Austin Garrett; Dan Gutfreund, peneliti utama di MIT-IBM Watson AI Lab; Joshua B. Tenenbaum, Profesor Pengembangan Karir Ilmu Kognitif dan Komputasi Paul E. Newton di Departemen Ilmu Otak dan Kognitif (BCS) dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan; dan penulis senior Vikash K. Mansinghka, ilmuwan peneliti utama dan pemimpin Proyek Komputasi Probabilistik di BCS. Penelitian ini dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Saraf pada bulan Desember.

Ledakan dari masa lalu

Untuk mengembangkan sistem, yang disebut “3D Scene Perception via Probabilistic Programming (3DP3),” para peneliti mengambil konsep dari hari-hari awal penelitian AI, yaitu bahwa computer vision dapat dianggap sebagai “kebalikan” dari grafik komputer.

Grafik komputer berfokus pada menghasilkan gambar berdasarkan representasi adegan; visi komputer dapat dilihat sebagai kebalikan dari proses ini. Gothoskar dan rekan-rekannya membuat teknik ini lebih mudah dipelajari dan terukur dengan memasukkannya ke dalam kerangka kerja yang dibangun menggunakan pemrograman probabilistik.

“Pemrograman probabilistik memungkinkan kita untuk menuliskan pengetahuan kita tentang beberapa aspek dunia dengan cara yang dapat ditafsirkan oleh komputer, tetapi pada saat yang sama, memungkinkan kita untuk mengungkapkan apa yang tidak kita ketahui, ketidakpastian. Jadi, sistem bisa belajar dari data secara otomatis dan juga otomatis mendeteksi ketika aturan tidak berlaku,” jelas Cusumano-Towner.

Dalam hal ini, model dikodekan dengan pengetahuan sebelumnya tentang adegan 3D. Misalnya, 3DP3 “tahu” bahwa adegan terdiri dari objek yang berbeda, dan objek ini sering kali diletakkan rata di atas satu sama lain — tetapi mungkin tidak selalu dalam hubungan yang sederhana. Hal ini memungkinkan model untuk bernalar tentang suatu adegan dengan lebih masuk akal.

Mempelajari bentuk dan adegan

Untuk menganalisis gambar suatu adegan, 3DP3 terlebih dahulu mempelajari objek-objek dalam adegan tersebut. Setelah diperlihatkan hanya lima gambar objek, masing-masing diambil dari sudut yang berbeda, 3DP3 mempelajari bentuk objek dan memperkirakan volume yang akan ditempatinya di ruang angkasa.

“Jika saya menunjukkan sebuah objek dari lima perspektif yang berbeda, Anda dapat membangun representasi yang cukup baik dari objek itu. Anda akan memahami warna, bentuknya, dan Anda akan dapat mengenali objek itu dalam banyak adegan berbeda,” kata Gothoskar.

Mansinghka menambahkan, “Ini jauh lebih sedikit data daripada pendekatan pembelajaran mendalam. Misalnya, sistem deteksi objek neural Dense Fusion memerlukan ribuan contoh pelatihan untuk setiap jenis objek. Sebaliknya, 3DP3 hanya membutuhkan beberapa gambar per objek, dan melaporkan ketidakpastian tentang bagian-bagian dari setiap bentuk objek yang tidak diketahuinya.”

Sistem 3DP3 menghasilkan grafik untuk mewakili pemandangan, di mana setiap objek adalah simpul dan garis yang menghubungkan simpul menunjukkan objek mana yang bersentuhan satu sama lain. Hal ini memungkinkan 3DP3 untuk menghasilkan estimasi yang lebih akurat tentang bagaimana objek diatur. (Pendekatan pembelajaran mendalam bergantung pada gambar kedalaman untuk memperkirakan pose objek, tetapi metode ini tidak menghasilkan struktur grafik hubungan kontak, sehingga estimasinya kurang akurat.)

Mengungguli model dasar

Para peneliti membandingkan 3DP3 dengan beberapa sistem pembelajaran mendalam, semuanya bertugas memperkirakan pose objek 3D dalam sebuah adegan.

Di hampir semua contoh, 3DP3 menghasilkan pose yang lebih akurat daripada model lain dan tampil jauh lebih baik ketika beberapa objek menghalangi sebagian objek lainnya. Dan 3DP3 hanya perlu melihat lima gambar dari setiap objek, sementara masing-masing model dasar yang diunggulinya membutuhkan ribuan gambar untuk pelatihan.

Saat digunakan bersama dengan model lain, 3DP3 mampu meningkatkan akurasinya. Misalnya, model pembelajaran mendalam mungkin memprediksi bahwa mangkuk mengambang sedikit di atas meja, tetapi karena 3DP3 memiliki pengetahuan tentang hubungan kontak dan dapat melihat bahwa ini adalah konfigurasi yang tidak mungkin, ia dapat melakukan koreksi dengan menyelaraskan mangkuk dengan meja.

“Saya terkejut melihat seberapa besar kesalahan dari pembelajaran mendalam kadang-kadang bisa terjadi — menghasilkan representasi adegan di mana objek benar-benar tidak sesuai dengan apa yang akan dilihat orang. Saya juga terkejut bahwa hanya sedikit inferensi berbasis model dalam program probabilistik kausal kami yang cukup untuk mendeteksi dan memperbaiki kesalahan ini. Tentu saja, masih ada jalan panjang untuk membuatnya cepat dan cukup kuat untuk menantang sistem penglihatan waktu nyata — tetapi untuk pertama kalinya, kami melihat pemrograman probabilistik dan model kausal terstruktur meningkatkan ketahanan dibandingkan pembelajaran mendalam pada hard 3D tolok ukur visi,” kata Mansinghka.

Di masa depan, para peneliti ingin mendorong sistem lebih jauh sehingga dapat mempelajari suatu objek dari satu gambar, atau satu bingkai dalam film, dan kemudian dapat mendeteksi objek tersebut dengan kuat dalam adegan yang berbeda. Mereka juga ingin mengeksplorasi penggunaan 3DP3 untuk mengumpulkan data pelatihan untuk jaringan saraf. Seringkali sulit bagi manusia untuk secara manual melabeli gambar dengan geometri 3D, sehingga 3DP3 dapat digunakan untuk menghasilkan label gambar yang lebih kompleks.

Ditulis oleh Adam Zewe

Sumber: Institut Teknologi Massachusetts



[ad_2]

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

pola jam hoki mahjong black scatter surabaya raih 688 juta

gates of olympus 1000 meledak 912 juta pemain medan

scatter wild emas 7 kali beruntun pemain bali 555 juta

gold bonanza ngamuk 10 putaran semarang raup 701 juta

trik putaran ganjil mahjong black scatter yogyakarta 599 juta

pola gelap olympus 1000 kakek merah palembang 834 juta

25 spin gold bonanza scatter bombardir makassar 645 juta

mahjong black scatter mode sultan menang 750 juta malang

scatter emas turun terus bandung barat dapat 489 juta

gates of olympus 1000 petir merah strategi lampung 950 juta

tracon 200juta scatter hitam mahjong

pola tracon mahjong2 maxwin

tracon rekor scatter hujan

trik tracon auto cuan mahjong3

pola scatter wild tracon jam hoki

tracon analisis scatter hitam hoki

anti rungkad tracon mahjong basah

tantangan tracon 1juta lipatganda

scatter wild vs hitam tracon eksperimen

strategi tracon kemenangan konsisten

dina pegbinangkab scatter hitam koi gate 500 juta

rian pegbinangkab pola maxwin starlight princess x500

siska pegbinangkab rekor scatter hujan emas

bima pegbinangkab trik jackpot gates of olympus

dewi pegbinangkab pola scatter wild jam gacor