Recunoașterea imaginii, în contextul Computer Vision, este capacitatea software-ului de a identifica obiecte, locuri, oameni, scrieri și acțiuni în imagini. Calculatoarele pot utiliza tehnologii de viziune artificială în combinație cu o cameră și un software de inteligență artificială pentru a obține recunoașterea imaginii.
Clasificarea imaginilor se referă la un proces în viziunea computerizată care poate clasifica o imagine pe baza conținutului său vizual. De exemplu, un algoritm de clasificare a imaginilor poate fi proiectat pentru a indica dacă o imagine conține sau nu o figură umană. Deși detectarea obiectelor este banală pentru oameni, clasificarea robustă a imaginilor rămâne o provocare pentru aplicațiile de viziune computerizată.
Obiectivul acestui studiu este de a determina ceea ce face ca o rețea neuronală profundă să prelucreze date complexe, cum ar fi datele imagini/video, mai rapidă și mai precisă, vom examina cele mai recente arhitecturi de rețele neuronale de succes pentru a determina care este cea mai eficientă (și mai rapidă) arhitectură(e) în clasificarea imaginilor și vom cerceta, de asemenea, care tehnici de optimizare funcționează cel mai bine în acest tip de date.
Încercăm să înțelegem cum cercetătorii au făcut recent un mare pas înainte în recunoașterea vizuală prin clasificarea imaginilor și să vedem cum au obținut un scor de acuratețe incredibil la provocarea ImageNet. Luând în considerare cum putem procesa mai rapid datele complexe, cum ar fi datele de imagine, cum putem gestiona problema supraajustării acestor date și cum putem minimiza timpul de antrenament al arhitecturii noastre.
Ultima actualizare
2 iul. 2022