El reconocimiento de imágenes, en el contexto de la visión artificial, es la capacidad del software para identificar objetos, lugares, personas, escritos y acciones en imágenes. Las computadoras pueden usar tecnologías de visión artificial en combinación con una cámara y software de inteligencia artificial para lograr el reconocimiento de imágenes.
La clasificación de imágenes se refiere a un proceso en la visión por computadora que puede clasificar una imagen en función de su contenido visual. Por ejemplo, se puede diseñar un algoritmo de clasificación de imágenes para indicar si una imagen contiene o no una figura humana. Aunque la detección de objetos es trivial para los humanos, la clasificación sólida de imágenes sigue siendo un desafío para las aplicaciones de visión artificial.
El objetivo de este estudio es determinar qué hace que una red neuronal profunda procese datos complejos, como datos de imagen/video, más rápido y más preciso. Examinaremos las últimas arquitecturas de redes neuronales exitosas para determinar cuál es la más eficiente (y más rápida). arquitectura(s) en la clasificación de imágenes, y también investigaremos qué técnicas de optimización funcionan mejor en este tipo de datos.
Intentamos comprender cómo los investigadores dieron un gran paso adelante en el reconocimiento visual al clasificar imágenes y ver cómo obtuvieron una puntuación de precisión increíble en el desafío ImageNet. Teniendo en cuenta cómo podemos procesar datos complejos como datos de imágenes más rápido, cómo podemos manejar el problema del sobreajuste de estos datos y cómo podemos minimizar el tiempo de entrenamiento de nuestra arquitectura.