Nitqin tanınması — diktorun verdiyi komandaları və verilənləri qəbul etmək məqsədilə kompüterin tələffüz olunan sözləri başa düşmək bacarığı. Şifahi dilin kompüterlər tərəfindən tanınmasına və mətnə çevrilməsinə imkan verən, metodologiya və texnologiyaları inkişaf etdirən informatika və hesablama dilçiliyinin fənlərarası alt sahəsidir. O, həmçinin avtomatik nitqin tanınması (ASR), kompüterin nitqi tanınması və ya nitqdən mətnə (STT) kimi tanınır. Eyni zamanda kompüter elmləri, dilçilik və kompüter mühəndisliyi sahələrində bilik və tədqiqatları özündə birləşdirir. Əks proses adlanır.

Subvokal nitqin tanınması tədqiqatlarında istifadə olunan elektrodlar.

Bəzi nitq tanıma sistemləri fərdi spikerin mətni və ya lüğəti sistemə oxuduğu "təlim" tələb edir. Sistem şəxsin spesifik səsini təhlil edir və alınan nəticədən həmin şəxsin nitqinin tanınmasını dəqiqləşdirmək üçün istifadə edir. Təlimdən istifadə etməyən sistemlər "müstəqil" sistemlər adlanır.

Nitqin tanınması proqramlarına səsli zəng, zənglərin yönləndirilməsi, avtomatik ev cihazların idarə edilməsi, açar sözlərin axtarışı, sadə məlumatların daxil edilməsi, strukturlaşdırılmış sənədlərin hazırlanması, spiker xüsusiyyətlərinin müəyyən edilməsi və nitqdən mətnə emal kimi səs istifadəçi interfeysləri daxildir.

Səsin tanınması və ya danışanın identifikasiyası termini danışanın dediklərini deyil, onun özünü müəyyən etməyə aiddir. Spikerin tanınması konkret şəxsin səsi ilə öyrədilmiş sistemlərdə nitqin tərcüməsi tapşırığını sadələşdirə bilər və ya təhlükəsizlik prosesinin bir hissəsi kimi spikerin kimliyini təsdiqləmək və ya yoxlamaq üçün istifadə edilə bilər.

Texnologiya nöqteyi-nəzərindən nitqin tanınması bir neçə əsas yenilik dalğası ilə uzun bir tarixə malikdir. Bu yaxınlarda bu sahə dərin öyrənməböyük verilənlərdə baş verən irəliləyişlərdən faydalanmışdır. İrəliləyişlər təkcə bu sahədə dərc olunan akademik məqalələrin artması ilə deyil, daha da əhəmiyyətlisi dünya sənayesində nitqin tanınması sistemlərinin layihələndirilməsi və tətbiqində müxtəlif dərin öyrənmə üsullarının qəbulu ilə sübut olunur.

Tarixi

İnkişafın əsas sahələri bunlar idi: lüğətin ölçüsü, danışanın müstəqilliyi və emal sürəti.

1970-ci ildən əvvəl

  • 1952 — üç Bell Labs tədqiqatçısı, Stiven Balaşek, R. Biddulf və K. H. Davis, tək spikerlərin rəqəmlərinin tanınması üçün "Audrey" adlı bir sistem qurdular. Onların sistemi formantları hər bir nitqin güc spektrində yerləşdirirdi.
  • 1960 — nitq istehsalının mənbə-filtr modelini işləyib hazırladı və nəşr etdi.
  • 1962 — IBM 1962-ci il Ümumdünya Sərgisində 16 sözdən ibarət "Shoebox" maşınının nitq tanıma qabiliyyətini nümayiş etdirdi.
  • 1966 — Nitq kodlaşdırma üsulu olan (LPC) ilk dəfə Naqoya Universitetindən və Nippon Telegraph and Telephone (NTT) şirkətindən tərəfindən nitqin tanınması üzərində işləyərkən təklif edilmişdir.
  • 1969 — nitqin tanınması tədqiqatını tənqid edən açıq məktub yazdıqda Bell Labs-da maliyyə bir neçə il boyunca tükənmiş vəziyyətdə qaldı. Bu vəziyyət Pirs təqaüdə çıxana və Ceyms Flanaqan vəzifəyə gələnə qədər davam etdi.

1960-cı illərin sonlarında Stenford Universitetində aspirant kimi davamlı nitqin tanınmasını üzərinə götürən ilk şəxs idi. Əvvəlki sistemlər istifadəçilərdən hər sözdən sonra fasilə verməyi tələb edirdi. Reddinin sistemi şahmat oynamaq üçün şifahi əmrlər verirdi.

Təxminən bu vaxtlarda sovet tədqiqatçıları dinamik vaxt dəyişikliyi (DVD) alqoritmini icad etdilər və ondan 200 sözdən ibarət lüğət üzərində işləyə bilən tanıma sistem yaratmaq üçün istifadə etdilər. DVD nitqi qısa kadrlara, 10 ms seqmentlərə bölərək və hər bir çərçivəni vahid şəkildə emal edərək işləyirdi. DVD sonrakı alqoritmlərlə əvəz edilsə də, texnika davam edirdi. Bu dövrdə spikerin müstəqilliyinin təmin edilməsi həll olunmamış qaldı.

İstinadlar

  1. . "speech recognition" // Rasim Əliquliyev (redaktor ). İnformatika terminlərinin izahlı lüğəti (az.). Bakı: "İnformasiya texnologiyaları" / "Bakı" nəşriyyatı. 2017. səh. 701. ISBN 978-9952-434-82-8. 6 sentyabr 2023 tarixində (PDF) ().
  2. . Fifthgen.com. 11 noyabr 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
  3. P. Nguyen. Automatic classification of speaker characteristics // International Conference on Communications and Electronics 2010. 2010. 147–152. doi:. ISBN 978-1-4244-7055-6.
  4. . Macmillan Publishers Limited. 16 sentyabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
  5. . WebFinance, Inc. 3 dekabr 2011 tarixində . İstifadə tarixi: 21 fevral 2012.
  6. . Linuxgazette.net. 19 fevral 2013 tarixində . İstifadə tarixi: 15 iyun 2013.
  7. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam. "Optimization of data-driven filterbank for automatic speaker verification". Digital Signal Processing. 104. September 2020: 102795. arXiv:. doi:.
  8. Reynolds, Douglas; Rose, Richard. (PDF). IEEE Transactions on Speech and Audio Processing. 3 (1). yanvar 1995: 72–83. doi:. ISSN . OCLC . 8 mart 2014 tarixində (PDF). İstifadə tarixi: 21 fevral 2014.
  9. . Microsoft Research. Microsoft. 25 fevral 2014 tarixində . İstifadə tarixi: 21 fevral 2014. When you speak to someone, they don't just recognize what you say: they recognize who you are. WhisperID will let computers do that, too, figuring out who you are by the way you sound.
  10. . The Star-Ledger. 22 July 2012. 4 April 2019 tarixində . İstifadə tarixi: 22 January 2024.
  11. . androidauthority.net. 9 August 2018 tarixində . İstifadə tarixi: 4 April 2019.
  12. Juang, B. H.; Rabiner, Lawrence R. (PDF). səh. 6. 17 avqust 2014 tarixində (PDF). İstifadə tarixi: 17 yanvar 2015.
  13. Melanie Pinola. . PC World. 2 November 2011. 3 November 2018 tarixində . İstifadə tarixi: 22 October 2018.
  14. Gray, Robert M. (PDF). Found. Trends Signal Process. 3 (4). 2010: 203–303. doi:. ISSN . 2022-10-09 tarixində (PDF). İstifadə tarixi: 2024-01-22.
  15. . "Whither speech recognition?". Journal of the Acoustical Society of America. 46 (48). 1969: 1049–1051. Bibcode:. doi:.
  16. Nils J. Nilsson. . ACM. 2023-06-01 tarixində . İstifadə tarixi: 22 yanvar 2024.
  17. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng. . Springer Science & Business Media. 2008. ISBN 978-3540491255.

Əlavə ədəbiyyat

  • Cole, Ronald; ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, redaktorlar Survey of the state of the art in human language technology. Cambridge Studies in Natural Language Processing. XII–XIII. Cambridge University Press. 1997. ISBN 978-0-521-59277-2.
  • Junqua, J.-C.; Haton, J.-P. Robustness in Automatic Speech Recognition: Fundamentals and Applications. Kluwer Academic Publishers. 1995. ISBN 978-0-7923-9646-8.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, David. Conversational Interface Technologies // ; Jacko, Julie A. (redaktorlar ). . Lawrence Erlbaum Associates Inc. 2007. ISBN 978-0-8058-5870-9.
  • Pieraccini, Roberto. . The MIT Press. 2012. ISBN 978-0262016858.
  • Pirani, Giancarlo, redaktor Advanced algorithms and architectures for speech understanding. Springer Science & Business Media. 2013. ISBN 978-3-642-84341-9.
  • Signer, Beat and Hoste, Lode: , In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, December 2013
  • Woelfel, Matthias; McDonough, John. Distant Speech Recognition. Wiley. 2009-05-26. ISBN 978-0470517048.

Xarici keçidlər

Mənbə — ""

Informasiya Melumat Axtar

Anarim.Az

Sayt Rehberliyi ile Elaqe

Saytdan Istifade Qaydalari

Anarim.Az 2004-2023