Kuvantunnistus on Computer Visionin yhteydessä ohjelmiston kyky tunnistaa esineitä, paikkoja, ihmisiä, kirjoituksia ja toimia kuvissa. Tietokoneet voivat käyttää konenäköteknologioita yhdessä kameran ja tekoälyohjelmiston kanssa kuvantunnistuksen saavuttamiseksi.
Kuvan luokittelulla tarkoitetaan tietokonenäön prosessia, joka voi luokitella kuvan sen visuaalisen sisällön perusteella. Esimerkiksi kuvien luokittelualgoritmi voidaan suunnitella osoittamaan, sisältääkö kuva ihmishahmon vai ei. Vaikka esineiden havaitseminen on triviaalia ihmisille, vankka kuvien luokittelu on edelleen haaste tietokonenäkösovelluksille.
Tämän tutkimuksen tavoitteena on selvittää, mikä tekee syvästä hermoverkosta, joka käsittelee monimutkaisia tietoja, kuten kuva-/videodataa, nopeamman ja tarkemman. Tutkimme viimeisimpiä onnistuneita hermoverkkoarkkitehtuureja määrittääksemme, mikä on tehokkain (ja nopein) arkkitehtuuri(t) kuvien luokittelussa, ja tutkimme myös, mitkä optimointitekniikat toimivat parhaiten tämän tyyppisissä tiedoissa.
Yritämme ymmärtää, kuinka tutkijat ovat äskettäin ottaneet suuren askeleen eteenpäin visuaalisessa tunnistamisessa luokittelemalla kuvia, ja nähdä, kuinka he saivat uskomattoman tarkkuuden ImageNet-haasteessa. Ottaen huomioon, kuinka voimme käsitellä monimutkaisia tietoja, kuten kuvadataa, nopeammin, kuinka voimme käsitellä tämän datan ylisovitusongelmaa ja miten voimme minimoida arkkitehtuurimme harjoitusajan.