Η Αναγνώριση Εικόνας, στο πλαίσιο του Computer Vision, είναι η ικανότητα του λογισμικού να αναγνωρίζει αντικείμενα, μέρη, ανθρώπους, γραπτά και ενέργειες σε εικόνες. Οι υπολογιστές μπορούν να χρησιμοποιήσουν τεχνολογίες μηχανικής όρασης σε συνδυασμό με κάμερα και λογισμικό τεχνητής νοημοσύνης για να επιτύχουν αναγνώριση εικόνας.
Η ταξινόμηση εικόνας αναφέρεται σε μια διαδικασία στην όραση υπολογιστή που μπορεί να ταξινομήσει μια εικόνα με βάση το οπτικό της περιεχόμενο. Για παράδειγμα, ένας αλγόριθμος ταξινόμησης εικόνας μπορεί να σχεδιαστεί για να υποδεικνύει εάν μια εικόνα περιέχει ή όχι μια ανθρώπινη φιγούρα. Αν και η ανίχνευση αντικειμένων είναι ασήμαντη για τους ανθρώπους, η ισχυρή ταξινόμηση εικόνων παραμένει μια πρόκληση για τις εφαρμογές όρασης υπολογιστών.
Ο στόχος αυτής της μελέτης είναι να προσδιορίσει τι κάνει ένα βαθύ νευρωνικό δίκτυο που επεξεργάζεται σύνθετα δεδομένα, όπως δεδομένα εικόνας/βίντεο, πιο γρήγορο και ακριβές. Θα εξετάσουμε τις πιο πρόσφατες επιτυχημένες αρχιτεκτονικές νευρωνικών δικτύων για να προσδιορίσουμε ποια είναι η πιο αποτελεσματική (και η πιο γρήγορη) αρχιτεκτονική(ες) στην ταξινόμηση εικόνων και θα ερευνήσουμε επίσης ποιες τεχνικές βελτιστοποίησης λειτουργούν καλύτερα σε αυτόν τον τύπο δεδομένων.
Προσπαθούμε να καταλάβουμε πώς οι ερευνητές έκαναν πρόσφατα ένα μεγάλο βήμα προς τα εμπρός στην οπτική αναγνώριση ταξινομώντας εικόνες και να δούμε πώς σημείωσαν απίστευτη βαθμολογία ακρίβειας στην πρόκληση ImageNet. Λαμβάνοντας υπόψη πώς μπορούμε να επεξεργαστούμε σύνθετα δεδομένα όπως δεδομένα εικόνας πιο γρήγορα, πώς μπορούμε να χειριστούμε το πρόβλημα της υπερπροσαρμογής σε αυτά τα δεδομένα και πώς μπορούμε να ελαχιστοποιήσουμε τον χρόνο εκπαίδευσης της αρχιτεκτονικής μας.
Ενημερώθηκε στις
2 Ιουλ 2022