Распознавание изображений в контексте компьютерного зрения — это способность программного обеспечения идентифицировать объекты, места, людей, надписи и действия на изображениях. Компьютеры могут использовать технологии машинного зрения в сочетании с камерой и программным обеспечением искусственного интеллекта для распознавания изображений.
Классификация изображений относится к процессу компьютерного зрения, который может классифицировать изображение на основе его визуального содержимого. Например, алгоритм классификации изображений может быть разработан для определения того, содержит ли изображение человеческую фигуру. Хотя обнаружение объектов является тривиальным для человека, надежная классификация изображений остается проблемой для приложений компьютерного зрения.
Цель этого исследования - определить, что делает глубокую нейронную сеть, обрабатывающую сложные данные, такие как данные изображения / видео, быстрее и точнее. Мы рассмотрим последние успешные архитектуры нейронных сетей, чтобы определить, какая из них является наиболее эффективной (и быстрой). архитектуры в классификации изображений, и мы также исследуем, какие методы оптимизации лучше всего работают в этом типе данных.
Мы пытаемся понять, как исследователи недавно сделали большой шаг вперед в визуальном распознавании путем классификации изображений, и посмотрим, как они набрали невероятную оценку точности в испытании ImageNet. Принимая во внимание, как мы можем быстрее обрабатывать сложные данные, такие как данные изображений, как мы можем решить проблему переобучения этих данных и как мы можем минимизировать время обучения нашей архитектуры.
Последнее обновление
2 июл. 2022 г.