Beeldherkenning, in de context van Computer Vision, is het vermogen van software om objecten, plaatsen, mensen, geschriften en acties in beelden te identificeren. Computers kunnen machine vision-technologieën gebruiken in combinatie met een camera en kunstmatige-intelligentiesoftware om beeldherkenning te bereiken.
Beeldclassificatie verwijst naar een proces in computervisie dat een afbeelding kan classificeren op basis van de visuele inhoud. Er kan bijvoorbeeld een beeldclassificatie-algoritme worden ontworpen om aan te geven of een afbeelding al dan niet een menselijke figuur bevat. Hoewel objectdetectie triviaal is voor mensen, blijft robuuste beeldclassificatie een uitdaging voor computervisietoepassingen.
Het doel van deze studie is om te bepalen wat een diep neuraal netwerk de verwerking van complexe gegevens, zoals beeld-/videogegevens, sneller en nauwkeuriger maakt. We zullen de nieuwste succesvolle neurale netwerkarchitecturen onderzoeken om te bepalen wat de meest efficiënte (en snelste) is. architectuur(s) in beeldclassificatie, en we zullen ook onderzoeken welke optimalisatietechnieken het beste werken in dit soort gegevens.
We proberen te begrijpen hoe onderzoekers onlangs een grote stap voorwaarts hebben gezet in visuele herkenning door afbeeldingen te classificeren, en zien hoe ze een ongelooflijke nauwkeurigheidsscore scoorden op de ImageNet-uitdaging. Rekening houdend met hoe we complexe data zoals beelddata sneller kunnen verwerken, hoe we het probleem van overfitting op deze data kunnen aanpakken en hoe we de trainingstijd van onze architectuur kunnen minimaliseren.