Ang Image Recognition, sa konteksto ng Computer Vision, ay ang kakayahan ng software na tukuyin ang mga bagay, lugar, tao, sulatin at aksyon sa mga imahe. Maaaring gumamit ang mga computer ng mga teknolohiya ng machine vision kasama ng isang camera at software ng artificial intelligence upang makamit ang pagkilala sa imahe.
Ang pag-uuri ng imahe ay tumutukoy sa isang proseso sa computer vision na maaaring mag-uri-uriin ang isang imahe batay sa visual na nilalaman nito. Halimbawa, ang isang algorithm ng pag-uuri ng imahe ay maaaring idisenyo upang ipahiwatig kung ang isang imahe ay naglalaman ng isang pigura ng tao. Kahit na ang pagtuklas ng bagay ay walang halaga para sa mga tao, ang matatag na pag-uuri ng imahe ay nananatiling isang hamon para sa mga application ng computer vision.
Ang layunin ng pag-aaral na ito ay upang matukoy kung ano ang gumagawa ng malalim na neural network sa pagpoproseso ng kumplikadong data, tulad ng data ng imahe/video, na mas mabilis at mas tumpak, susuriin namin ang pinakabagong matagumpay na mga arkitektura ng neural network upang matukoy kung ano ang pinakamabisa (at pinakamabilis) (mga) arkitektura sa pag-uuri ng imahe, at magsasaliksik din kami kung aling mga diskarte sa pag-optimize ang pinakamahusay na gumagana sa ganitong uri ng data.
Sinusubukan naming maunawaan kung paano gumawa kamakailan ang mga mananaliksik ng malaking hakbang pasulong sa visual na pagkilala sa pamamagitan ng pag-uuri ng mga larawan, at tingnan kung paano sila nakakuha ng hindi kapani-paniwalang marka ng katumpakan sa hamon ng ImageNet. Isinasaalang-alang kung paano namin mapoproseso ang kumplikadong data tulad ng data ng imahe nang mas mabilis, paano namin mahahawakan ang problema ng overfitting sa data na ito, at paano namin mababawasan ang oras ng pagsasanay ng aming arkitektura.
Na-update noong
Hul 2, 2022