Rozpoznawanie obrazu, w kontekście wizji komputerowej, to zdolność oprogramowania do identyfikowania obiektów, miejsc, ludzi, pism i działań na obrazach. Komputery mogą wykorzystywać technologie widzenia maszynowego w połączeniu z kamerą i oprogramowaniem sztucznej inteligencji, aby osiągnąć rozpoznawanie obrazu.
Klasyfikacja obrazu odnosi się do procesu w wizji komputerowej, który może klasyfikować obraz na podstawie jego zawartości wizualnej. Na przykład algorytm klasyfikacji obrazów może być zaprojektowany tak, aby wskazywał, czy obraz zawiera postać ludzką. Chociaż wykrywanie obiektów jest trywialne dla ludzi, solidna klasyfikacja obrazów pozostaje wyzwaniem dla aplikacji widzenia komputerowego.
Celem tego badania jest określenie, co sprawia, że głęboka sieć neuronowa przetwarza złożone dane, takie jak dane obrazu/wideo, jest szybsze i dokładniejsze. Zbadamy najnowsze udane architektury sieci neuronowych, aby określić, która jest najbardziej wydajna (i najszybsza) architektury w klasyfikacji obrazów, a także zbadamy, które techniki optymalizacji sprawdzają się najlepiej w tego typu danych.
Staramy się zrozumieć, w jaki sposób badacze zrobili ostatnio duży krok naprzód w rozpoznawaniu wizualnym, klasyfikując obrazy, i zobaczyć, jak uzyskali niewiarygodny wynik dokładności w wyzwaniu ImageNet. Biorąc pod uwagę, w jaki sposób możemy szybciej przetwarzać złożone dane, takie jak dane obrazu, jak poradzić sobie z problemem overfittingu na tych danych oraz jak zminimalizować czas szkolenia naszej architektury.
Ostatnia aktualizacja
2 lip 2022