Billedgenkendelse, i sammenhæng med Computer Vision, er softwarens evne til at identificere objekter, steder, personer, skrifter og handlinger i billeder. Computere kan bruge maskinsynsteknologier i kombination med et kamera og kunstig intelligens-software til at opnå billedgenkendelse.
Billedklassificering refererer til en proces i computersyn, der kan klassificere et billede baseret på dets visuelle indhold. For eksempel kan en billedklassificeringsalgoritme designes til at angive, hvorvidt et billede indeholder en menneskelig figur. Selvom objektdetektering er trivielt for mennesker, er robust billedklassificering fortsat en udfordring for computersynsapplikationer.
Formålet med denne undersøgelse er at bestemme, hvad der gør et dybt neuralt netværk, der behandler komplekse data, såsom billed-/videodata, hurtigere og mere præcist. Vi vil undersøge de seneste succesfulde neurale netværksarkitekturer for at bestemme, hvad der er den mest effektive (og hurtigste) arkitektur(er) i billedklassificering, og vi vil også undersøge, hvilke optimeringsteknikker der fungerer bedst i denne type data.
Vi forsøger at forstå, hvordan forskere for nylig tog et stort skridt fremad inden for visuel genkendelse ved at klassificere billeder, og se, hvordan de opnåede en utrolig nøjagtighedsscore på ImageNet-udfordringen. Under hensyntagen til, hvordan kan vi behandle komplekse data som billeddata hurtigere, hvordan kan vi håndtere problemet med overfitting på disse data, og hvordan kan vi minimere træningstiden for vores arkitektur.