Распазнаванне малюнкаў, у кантэксце камп'ютэрнага зроку, - гэта здольнасць праграмнага забеспячэння ідэнтыфікаваць аб'екты, месцы, людзей, запісы і дзеянні ў выявах. Кампутары могуць выкарыстоўваць тэхналогіі машыннага зроку ў спалучэнні з камерай і праграмным забеспячэннем штучнага інтэлекту для дасягнення распазнавання выявы.
Класіфікацыя малюнкаў адносіцца да працэсу ў кампутарным зроку, які можа класіфікаваць малюнак на аснове яго візуальнага зместу. Напрыклад, алгарытм класіфікацыі малюнкаў можа быць распрацаваны, каб паказаць, ці змяшчае выява фігуру чалавека. Хоць выяўленне аб'ектаў з'яўляецца трывіяльным для людзей, надзейная класіфікацыя малюнкаў застаецца праблемай для прыкладанняў камп'ютэрнага зроку.
Мэта гэтага даследавання складаецца ў тым, каб вызначыць, што робіць глыбокую нейронную сетку, якая апрацоўвае складаныя дадзеныя, такія як даныя малюнкаў/відэа, хутчэй і больш дакладна. Мы разгледзім апошнія паспяховыя архітэктуры нейронавых сетак, каб вызначыць, што з'яўляецца найбольш эфектыўным (і самым хуткім) архітэктуры(-аў) у класіфікацыі выяваў, і мы таксама даследуем, якія метады аптымізацыі лепш за ўсё працуюць у дадзеным тыпе дадзеных.
Мы спрабуем зразумець, як нядаўна даследчыкі зрабілі вялікі крок наперад у візуальным распазнаванні, класіфікуючы выявы, і паглядзець, як яны атрымалі неверагодную ацэнку дакладнасці ў задачы ImageNet. Прымаючы пад увагу, як мы можам апрацоўваць складаныя дадзеныя, такія як дадзеныя выявы, хутчэй, як мы можам справіцца з праблемай пераабсталявання гэтых дадзеных і як мы можам мінімізаваць час навучання нашай архітэктуры.