El reconeixement d'imatges, en el context de la visió per ordinador, és la capacitat del programari per identificar objectes, llocs, persones, escrits i accions en imatges. Els ordinadors poden utilitzar tecnologies de visió artificial en combinació amb una càmera i un programari d'intel·ligència artificial per aconseguir el reconeixement d'imatges.
La classificació d'imatges fa referència a un procés en visió per ordinador que pot classificar una imatge en funció del seu contingut visual. Per exemple, es pot dissenyar un algorisme de classificació d'imatges per indicar si una imatge conté o no una figura humana. Tot i que la detecció d'objectes és trivial per als humans, la classificació robusta d'imatges segueix sent un repte per a les aplicacions de visió per ordinador.
L'objectiu d'aquest estudi és determinar què fa que una xarxa neuronal profunda processi dades complexes, com ara dades d'imatge/vídeo, més ràpida i precisa, examinarem les últimes arquitectures de xarxes neuronals d'èxit per determinar quina és la més eficient (i més ràpida). arquitectures en la classificació d'imatges, i també investigarem quines tècniques d'optimització funcionen millor en aquest tipus de dades.
Intentem entendre com els investigadors van fer recentment un gran pas endavant en el reconeixement visual mitjançant la classificació d'imatges i veiem com van obtenir una puntuació de precisió increïble al repte ImageNet. Tenint en compte com podem processar dades complexes com les dades d'imatge més ràpidament, com podem gestionar el problema del sobreajustament d'aquestes dades i com podem minimitzar el temps d'entrenament de la nostra arquitectura.
Data d'actualització:
2 de jul. 2022