Kontent qismiga oʻtish

Tilni aniqlash

Vikipediya, ochiq ensiklopediya

Tilni aniqlash (inglizchada tilini aniqlash), tabiiy tilni qayta ishlash usulida — tilni aniqlash. Tilni aniqlash muammosi matnni turkumlashtirishning alohida holati boʻlib, statistik usullar yordamida hal qilinadi.

Ko‘rib chiqish

[tahrir | manbasini tahrirlash]

Tilni aniqlash uchun PPRLM (parallel fonemalarni aniqlash + til modeli) arxitekturasi bir nechta tillarda oʻqitilgan fonetik tanuvchilarning parallel ulanishi bilan amalga oshiriladi. Fonetik tanib olish Viterbi algoritmidan foydalangan holda yashirin Markov modellariga (HMMs) asoslangan.

Nutq xabarining maʼlum bir maqsadli tilga tegishliligi toʻgʻrisida qaror qabul qilish uchun qoʻllab-quvvatlovchi vektor mashinalari (SVM — qoʻllab-quvvatlovchi vektorli mashinalar) asosidagi klassifikator yordamida yondashuv amalga oshiriladi.

Klassik PPRLM asosida qurilgan tizimning ishlash printsipi quyidagicha:

  1. tizimda bir nechta fonetik taniydiganlar mavjud;
  2. har bir kiritilgan tovush fayli fonetik tanuvchilar tomonidan tan olinadi;
  3. har bir fonetik tan oluvchi fonemalarning natijaviy ketma-ketligiga koʻra, maʼlum bir maqsadli tilning n-gramm modeliga yaqinlik oʻlchovlari hisoblanadi;
  4. n-gramm modelining maksimal yaqinlik oʻlchoviga ega boʻlgan til gʻolib deb hisoblanadi.

Ilgʻor PPRLM tizimlarida tilni identifikatsiya qilish ochiq vazifa sifatida amalga oshiriladi: qayta ishlangan faylning maqsadli tilga „tegishli“ / „tegishli emas“ tekshiruvi oʻtkaziladi, qaror avtomatik ravishda belgilangan chegarani hisobga olgan holda foydalanuvchi tomonidan qabul qilinadi.

Asosiy algoritmga quyidagi qadamlar qoʻshiladi:

  1. har bir fonetik tan oluvchining hosil boʻlgan fonemalari ketma-ketligi u yoki bu „yoʻnaltiruvchi“ tilning n-gramm modeli bilan qoʻshib qoʻyiladi va n-gramm modelining fonemalar ketma-ketligiga yaqinlik oʻlchovlari koʻrib chiqiladi;
  2. n-gramm modellarining fonema ketma-ketligiga yaqinligi oʻlchovlarining toʻliq toʻplami SVM klassifikatori uchun kirish vektoridir;
  3. tasniflash natijasiga koʻra, SVM klassifikatori har bir maqsadli til uchun alohida belgilangan chegara bilan solishtirib, maqsadli tilga tegishli boʻlish toʻgʻrisida qaror qabul qiladi.

Agar SVM klassifikatori tomonidan berilgan ball chegaradan katta boʻlsa, audio fayl maqsadli tilda aytiladi. Bunday holda, ovoz fayli bir vaqtning oʻzida bir yoki bir nechta tillarga tayinlanishi yoki ularning hech biriga tayinlanmasligi mumkin.

Veb-xizmatlar

[tahrir | manbasini tahrirlash]