Разпознаването на изображения, в контекста на компютърното зрение, е способността на софтуера да идентифицира обекти, места, хора, писания и действия в изображения. Компютрите могат да използват технологии за машинно зрение в комбинация с камера и софтуер за изкуствен интелект, за да постигнат разпознаване на изображения.
Класификацията на изображението се отнася до процес в компютърното зрение, който може да класифицира изображение въз основа на неговото визуално съдържание. Например, алгоритъм за класификация на изображения може да бъде проектиран, за да посочи дали изображението съдържа човешка фигура или не. Въпреки че откриването на обекти е тривиално за хората, стабилната класификация на изображенията остава предизвикателство за приложенията за компютърно зрение.
Целта на това проучване е да определи какво прави дълбоката невронна мрежа, която обработва сложни данни, като например изображения/видео данни, по-бърза и по-точна, ние ще разгледаме най-новите успешни архитектури на невронни мрежи, за да определим коя е най-ефективната (и най-бързата) архитектура(и) в класификацията на изображенията и също така ще проучим кои техники за оптимизация работят най-добре в този тип данни.
Опитваме се да разберем как изследователите наскоро направиха голяма крачка напред във визуалното разпознаване чрез класифициране на изображения и да видим как са отбелязали невероятна оценка за точност в предизвикателството ImageNet. Като вземем предвид как можем да обработваме сложни данни като данни за изображения по-бързо, как можем да се справим с проблема с прекомерното монтиране на тези данни и как можем да сведем до минимум времето за обучение на нашата архитектура.
Актуализирано на
2.07.2022 г.