Pengenalan Gambar, dalam konteks Computer Vision, adalah kemampuan perangkat lunak untuk mengidentifikasi objek, tempat, orang, tulisan, dan tindakan dalam gambar. Komputer dapat menggunakan teknologi visi mesin yang dikombinasikan dengan kamera dan perangkat lunak kecerdasan buatan untuk mencapai pengenalan gambar.
Klasifikasi gambar mengacu pada proses dalam visi komputer yang dapat mengklasifikasikan gambar berdasarkan konten visualnya. Misalnya, algoritma klasifikasi gambar dapat dirancang untuk menunjukkan apakah suatu gambar mengandung sosok manusia atau tidak. Meskipun deteksi objek sepele bagi manusia, klasifikasi gambar yang kuat tetap menjadi tantangan bagi aplikasi visi komputer.
Tujuan dari penelitian ini adalah untuk menentukan apa yang membuat jaringan saraf dalam memproses data kompleks, seperti data gambar/video, lebih cepat dan lebih akurat, kami akan memeriksa arsitektur jaringan saraf terbaru yang berhasil untuk menentukan apa yang paling efisien (dan tercepat) arsitektur dalam klasifikasi gambar, dan kami juga akan meneliti teknik pengoptimalan mana yang paling berhasil dalam jenis data ini.
Kami mencoba memahami bagaimana para peneliti baru-baru ini mengambil langkah maju yang besar dalam pengenalan visual dengan mengklasifikasikan gambar, dan melihat bagaimana mereka mencetak skor akurasi yang luar biasa pada tantangan ImageNet. Mempertimbangkan bagaimana kami dapat memproses data kompleks seperti data gambar dengan lebih cepat, bagaimana kami dapat menangani masalah overfitting pada data ini, dan bagaimana kami dapat meminimalkan waktu pelatihan arsitektur kami.