Розпізнавання зображень у контексті комп’ютерного зору – це здатність програмного забезпечення ідентифікувати об’єкти, місця, людей, тексти та дії на зображеннях. Комп’ютери можуть використовувати технології машинного зору в поєднанні з камерою та програмним забезпеченням штучного інтелекту для досягнення розпізнавання зображень.
Класифікація зображень відноситься до процесу комп’ютерного зору, який може класифікувати зображення на основі його візуального вмісту. Наприклад, може бути розроблений алгоритм класифікації зображень, щоб вказати, чи містить зображення фігуру людини. Хоча виявлення об’єктів є тривіальним для людей, надійна класифікація зображень залишається проблемою для додатків комп’ютерного зору.
Мета цього дослідження полягає в тому, щоб визначити, що робить глибоку нейронну мережу, яка обробляє складні дані, такі як дані зображення/відео, швидше та точніше. Ми розглянемо останні успішні архітектури нейронних мереж, щоб визначити, що є найефективнішим (і найшвидшим). архітектури(ів) у класифікації зображень, а також ми дослідимо, які методи оптимізації найкраще працюють у цьому типі даних.
Ми намагаємося зрозуміти, як дослідники нещодавно зробили великий крок вперед у візуальному розпізнаванні, класифікуючи зображення, і побачити, як вони отримали неймовірну точність у завданняі ImageNet. Беручи до уваги, як ми можемо швидше обробляти складні дані, як-от дані зображення, як ми можемо впоратися з проблемою переобладнання цих даних і як ми можемо мінімізувати час навчання нашої архітектури.