Bildegjenkjenning, i sammenheng med Computer Vision, er programvarens evne til å identifisere objekter, steder, personer, skrifter og handlinger i bilder. Datamaskiner kan bruke maskinsynsteknologier i kombinasjon med et kamera og programvare for kunstig intelligens for å oppnå bildegjenkjenning.
Bildeklassifisering refererer til en prosess i datasyn som kan klassifisere et bilde basert på dets visuelle innhold. For eksempel kan en bildeklassifiseringsalgoritme utformes for å indikere hvorvidt et bilde inneholder en menneskelig figur. Selv om gjenstandsdeteksjon er triviell for mennesker, er robust bildeklassifisering fortsatt en utfordring for datasynsapplikasjoner.
Målet med denne studien er å finne ut hva som gjør at et dypt nevralt nettverk behandler komplekse data, som bilde/videodata, raskere og mer nøyaktig. Vi vil undersøke de siste vellykkede nevrale nettverksarkitekturene for å finne ut hva som er den mest effektive (og raskeste) arkitektur(er) i bildeklassifisering, og vi skal også forske på hvilke optimaliseringsteknikker som fungerer best i denne typen data.
Vi prøver å forstå hvordan forskere nylig tok et stort skritt fremover innen visuell gjenkjenning ved å klassifisere bilder, og se hvordan de oppnådde en utrolig nøyaktighetsscore på ImageNet-utfordringen. Når vi tar i betraktning hvordan kan vi behandle komplekse data som bildedata raskere, hvordan kan vi håndtere problemet med overtilpasning på disse dataene, og hvordan kan vi minimere treningstiden til arkitekturen vår.