ჩვენი მეტყველების ამოცნობის გადაწყვეტა არის ტექნოლოგია, რომელიც საშუალებას აძლევს კომპიუტერებს ან მოწყობილობებს ადამიანის მეტყველების ინტერპრეტაცია და გაგება. ის მომხმარებლებს საშუალებას აძლევს, დაუკავშირდნენ მოწყობილობებთან, აპლიკაციებთან ან სერვისებთან მათი ხმის გამოყენებით, აკრეფის ან შეყვანის ტრადიციული მეთოდების ნაცვლად.
ეს გადაწყვეტილებები ჩვეულებრივ მოიცავს შემდეგ კომპონენტებს:
აუდიო შეყვანა: გამოსავალი იღებს აუდიო შეყვანას მიკროფონის ან აუდიო წყაროს მეშვეობით.
მეტყველების ამოცნობის ძრავა: მეტყველების ამოცნობის ძრავა ამუშავებს აუდიო შეყვანას და იყენებს ალგორითმებსა და მოდელებს სალაპარაკო სიტყვების ტექსტად გადასაყვანად. ამ ძრავას შეუძლია გამოიყენოს სხვადასხვა მიდგომები, როგორიცაა აკუსტიკური და ენობრივი მოდელები, სიზუსტის გასაუმჯობესებლად და სხვადასხვა ენების ან აქცენტების დასამუშავებლად.
ენის დამუშავება: მეტყველების ტექსტად გადაქცევის შემდეგ, გამოსავალმა შეიძლება შეასრულოს ენის დამუშავების დამატებითი ამოცანები, როგორიცაა ბუნებრივი ენის გაგება (NLU) ან სემანტიკური ანალიზი. ეს პროცესები ხელს უწყობს მნიშვნელობის ამოღებას, მიზნების იდენტიფიცირებას ან სათანადო პასუხების გენერირებას აღიარებული მეტყველების საფუძველზე.
ბრძანება ან მოქმედების შესრულება: აღიარებული ტექსტი შეიძლება გამოყენებულ იქნას კონკრეტული მოქმედებების ან ბრძანებების გასააქტიურებლად აპლიკაციაში ან სისტემაში. მაგალითად, ხმოვანი ბრძანებები შეიძლება გამოყენებულ იქნას ჭკვიანი მოწყობილობების სამართავად, ინფორმაციის მოსაძიებლად, ტექსტური შეტყობინებების შესაქმნელად ან სხვა ამოცანების შესასრულებლად.