Vaizdo atpažinimas kompiuterinės vizijos kontekste yra programinės įrangos gebėjimas atpažinti objektus, vietas, žmones, raštus ir veiksmus vaizduose. Vaizdo atpažinimui kompiuteriai gali naudoti mašininio matymo technologijas kartu su kamera ir dirbtinio intelekto programine įranga.
Vaizdo klasifikavimas reiškia kompiuterinio regėjimo procesą, kuris gali klasifikuoti vaizdą pagal jo vizualinį turinį. Pavyzdžiui, vaizdų klasifikavimo algoritmas gali būti sukurtas taip, kad parodytų, ar vaizde yra žmogaus figūra, ar ne. Nors objektų aptikimas žmonėms yra nereikšmingas, patikimas vaizdų klasifikavimas išlieka iššūkiu kompiuterinio regėjimo programoms.
Šio tyrimo tikslas – nustatyti, dėl ko gilus neuroninis tinklas apdoroja sudėtingus duomenis, pvz., vaizdo / vaizdo duomenis, greičiau ir tiksliau, išnagrinėsime naujausias sėkmingas neuroninių tinklų architektūras, kad nustatytų, kuri yra efektyviausia (ir greičiausia) architektūrą (-as) vaizdų klasifikacijoje, taip pat ištirsime, kurie optimizavimo metodai geriausiai tinka tokio tipo duomenims.
Stengiamės suprasti, kaip mokslininkai neseniai žengė didelį žingsnį į priekį vizualinio atpažinimo srityje, klasifikuodami vaizdus, ir matome, kaip jie surinko neįtikėtiną tikslumo balą „ImageNet“ iššūkyje. Atsižvelgdami į tai, kaip galime greičiau apdoroti sudėtingus duomenis, pvz., vaizdo duomenis, kaip galime išspręsti šių duomenų pertekliaus problemą ir kaip galime sumažinti savo architektūros mokymo laiką.