Səsli idarəetmə (ing. Voice control) — insanın səs əmrlərindən istifadə edərək kompüter və ya digər cihazlarla qarşılıqlı əlaqə yaratmağa imkan verən texnologiyadır. Bu, səs siqnallarının tanınması, təbii dilin emalı və müvafiq əməliyyatların yerinə yetirilməsi prinsiplərinə əsaslanır.[1] Bu texnologiya, əsasən süni intellekt (Sİ), xüsusilə də təbii dil emalı (NLP), avtomatik nitq tanıma (ASR) və mətn-nitq sintezi (TTS) kimi sahələrin inkişafı sayəsində mümkün olmuşdur.[2] Səsli idarəetmə sistemləri istifadəçilərə cihazları əllərindən istifadə etmədən idarə etməyə, məlumat axtarmağa, əməliyyatlar yerinə yetirməyə və ağıllı ev sistemləri kimi kompleks sistemləri idarə etməyə imkan tanıyır.[3]
Səsli idarəetmənin kökləri 1950-ci illərə gedib çıxır.[4]
- 1950-1960-cı illər: Bell Labs tərəfindən yaradılan "Audrey" sistemi yalnız deyilən rəqəmləri tanıya bilirdi (1952).[4] IBM tərəfindən təqdim edilən "Shoebox" isə 16 ingilis sözünü anlaya bilirdi (1962).[4]
- 1970-ci illər: ABŞ Müdafiə Nazirliyinin maliyyələşdirdiyi DARPA SUR (Speech Understanding Research) proqramı sahənin inkişafına böyük təkan verdi.[5] Nəticədə, Karnegi Mellon Universiteti tərəfindən 1000-dən çox sözü anlaya bilən "Harpy" sistemi yaradıldı.[5]
- 1980-ci illər: "Gizli Markov Modeli" (Hidden Markov Model - HMM) kimi statistik metodların tətbiqi ilə nitq tanımada əhəmiyyətli irəliləyişlər əldə edildi.[4]
- 1990-cı illər: Şəxsi kompüterlərin yayılması ilə səs tanıma texnologiyası daha geniş istifadəçi kütləsi üçün əlçatan oldu. Dragon şirkəti "Dragon NaturallySpeaking" (1997) kimi davamlı nitqi tanıya bilən ilk kommersiya məhsullarını təqdim etdi.[6]
- 2000-ci illər - günümüz: Google Voice Search, Apple Siri (2011), Amazon Alexa (2014) və Google Assistant (2016) kimi bulud əsaslı və süni intellekt dəstəkli virtual köməkçilərin yaranması səsli idarəetməni kütləvi texnologiyaya çevirdi.[3] Böyük dil modellərinin (LLM) inteqrasiyası ilə bu sistemlərin dialoq qabiliyyətləri daha da təkmilləşmişdir.[7]
- ↑ Huang, X.; Acero, A.; Hon, H. "Spoken Language Processing: A Guide to Theory, Algorithm and System Development". Prentice Hall PTR. 2001. ISBN 978-0130226167.
- ↑ Jurafsky, Daniel; Martin, James H. Speech and Language Processing (3rd). Prentice Hall. 2023. ISBN 978-0133368761.
- ↑ 1 2 "Beyond Alexa and Siri: The Evolution of Voice AI". Gartner. 2023-08-15. İstifadə tarixi: 2025-05-04.
- ↑ 1 2 3 4 Rabiner, Lawrence; Juang, Biing-Hwang. "Fundamentals of Speech Recognition". Prentice Hall. 1993. ISBN 978-0130151575.
- ↑ 1 2 "Speech Understanding Research". DARPA. İstifadə tarixi: 2025-05-04.
- ↑ "Nuance Communications Company History (Acquirer of Dragon Systems)". Nuance. İstifadə tarixi: 2025-05-04.
- ↑ Kepuska, Veton; Bohouta, Gazmend. "Next-generation of virtual personal assistants (Microsoft Cortana, Apple Siri, Amazon Alexa and Google Assistant)". 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC). 2018: 99–103. doi:10.1109/CCWC.2018.8301638.