图像识别,在计算机视觉的背景下,是软件识别图像中的物体、地点、人物、文字和动作的能力。计算机可以将机器视觉技术与相机和人工智能软件结合使用来实现图像识别。
图像分类是指计算机视觉中的一个过程,可以根据图像的视觉内容对图像进行分类。例如,可以设计图像分类算法来指示图像是否包含人物。尽管对象检测对人类来说微不足道,但强大的图像分类仍然是计算机视觉应用的挑战。
本研究的目的是确定是什么让深度神经网络处理复杂数据(例如图像/视频数据)更快、更准确,我们将检查最新成功的神经网络架构以确定什么是最有效(和最快)的图像分类中的架构,我们还将研究哪些优化技术在此类数据中最有效。
我们试图了解研究人员最近如何通过对图像进行分类,在视觉识别方面迈出了一大步,并了解他们如何在 ImageNet 挑战赛中获得令人难以置信的准确度得分。考虑到如何更快地处理像图像数据这样的复杂数据,如何处理对这些数据的过度拟合问题,以及如何最大限度地减少架构的训练时间。