Prepoznavanje slika, u kontekstu računalnog vida, je sposobnost softvera da identificira objekte, mjesta, ljude, spise i radnje na slikama. Računala mogu koristiti tehnologije strojnog vida u kombinaciji s kamerom i softverom umjetne inteligencije kako bi se postiglo prepoznavanje slike.
Klasifikacija slike odnosi se na proces računalnog vida koji može klasificirati sliku na temelju njezinog vizualnog sadržaja. Na primjer, algoritam za klasifikaciju slika može se osmisliti da naznači sadrži li slika ljudsku figuru ili ne. Iako je detekcija objekata trivijalna za ljude, robusna klasifikacija slika ostaje izazov za aplikacije računalnog vida.
Cilj ove studije je utvrditi što čini duboku neuronsku mrežu koja obrađuje složene podatke, kao što su slike/video podaci, bržom i točnijom, ispitat ćemo najnovije uspješne arhitekture neuronskih mreža kako bismo utvrdili što je najučinkovitije (i najbrže) arhitekture(e) u klasifikaciji slika, a također ćemo istražiti koje tehnike optimizacije najbolje funkcioniraju u ovoj vrsti podataka.
Pokušavamo razumjeti kako su istraživači nedavno napravili veliki korak naprijed u vizualnom prepoznavanju klasificiranjem slika i vidjeti kako su postigli nevjerojatnu ocjenu točnosti na ImageNet izazovu. Uzimajući u obzir kako možemo brže obraditi složene podatke kao što su slikovni podaci, kako se možemo nositi s problemom prekomjernog prilagođavanja tim podacima i kako možemo minimizirati vrijeme obuke naše arhitekture.