Zgjidhja jonë e njohjes së të folurit është një teknologji që lejon kompjuterët ose pajisjet të interpretojnë dhe kuptojnë fjalimin e njeriut. Ai u mundëson përdoruesve të ndërveprojnë me pajisjet, aplikacionet ose shërbimet duke përdorur zërin e tyre si hyrje në vend të shtypjes ose përdorimit të metodave tradicionale të hyrjes.
Këto zgjidhje zakonisht përfshijnë komponentët e mëposhtëm:
Hyrja audio: Zgjidhja kap hyrjen audio përmes një mikrofoni ose burimi audio.
Motori i njohjes së të folurit: Motori i njohjes së të folurit përpunon hyrjen audio dhe aplikon algoritme dhe modele për të kthyer fjalët e folura në tekst. Ky motor mund të përdorë qasje të ndryshme, të tilla si modelet akustike dhe gjuhësore, për të përmirësuar saktësinë dhe për të trajtuar gjuhë ose thekse të ndryshme.
Përpunimi i gjuhës: Pas konvertimit të të folurit në tekst, zgjidhja mund të kryejë detyra shtesë të përpunimit të gjuhës, si kuptimi i gjuhës natyrore (NLU) ose analiza semantike. Këto procese ndihmojnë në nxjerrjen e kuptimit, identifikimin e qëllimeve ose gjenerimin e përgjigjeve të përshtatshme bazuar në fjalimin e njohur.
Ekzekutimi i komandave ose veprimeve: Teksti i njohur mund të përdoret për të aktivizuar veprime ose komanda specifike brenda një aplikacioni ose sistemi. Për shembull, komandat zanore mund të përdoren për të kontrolluar pajisjet inteligjente, për të kërkuar informacione, për të krijuar mesazhe me tekst ose për të kryer detyra të tjera.