Rozpoznávanie obrázkov v kontexte počítačového videnia je schopnosť softvéru identifikovať predmety, miesta, ľudí, nápisy a akcie na obrázkoch. Počítače môžu využívať technológie strojového videnia v kombinácii s kamerou a softvérom umelej inteligencie na dosiahnutie rozpoznania obrazu.
Klasifikácia obrazu sa vzťahuje na proces v počítačovom videní, ktorý dokáže klasifikovať obraz na základe jeho vizuálneho obsahu. Algoritmus klasifikácie obrázkov môže byť napríklad navrhnutý tak, aby indikoval, či obrázok obsahuje ľudskú postavu alebo nie. Hoci je detekcia objektov pre ľudí triviálna, robustná klasifikácia obrazu zostáva výzvou pre aplikácie počítačového videnia.
Cieľom tejto štúdie je určiť, čo robí hlbokú neurónovú sieť spracovávajúcou zložité dáta, ako sú obrazové/video dáta, rýchlejšou a presnejšou, preskúmame najnovšie úspešné architektúry neurónových sietí, aby sme určili, čo je najefektívnejšie (a najrýchlejšie) architektúru(y) v klasifikácii obrázkov a tiež preskúmame, ktoré optimalizačné techniky fungujú najlepšie v tomto type údajov.
Snažíme sa pochopiť, ako výskumníci nedávno urobili veľký krok vpred vo vizuálnom rozpoznávaní pomocou klasifikácie obrázkov, a uvidíme, ako dosiahli neuveriteľné skóre presnosti vo výzve ImageNet. Ak vezmeme do úvahy, ako môžeme rýchlejšie spracovať komplexné údaje, ako sú obrazové údaje, ako môžeme zvládnuť problém s nadmernou montážou týchto údajov a ako môžeme minimalizovať čas školenia našej architektúry.