Nutq korpuslari

Vikipediya, ochiq ensiklopediya

Nutq korpusi (yoki og'zaki korpus ) - bu nutq audio fayllar va matn transkripsiyalarining ma'lumotlar bazasi. Boshqa ko'plab korpuslar singari nutq texnologiyasidagi nutq korpusi, akustik modellarni yaratish maqsadida foydalaniladi (keyinchalik ular nutqni aniqlash yoki so'zlovchini identifikatsiya qilish mexanizmi bilan birgalikda ishlatilishi mumkin)[1]. Tilshunoslikda so'zlashuv korpusi fonetik, dialoglar tahlili, dialektologiya va boshqa shu kabi ko'plab sohalarda tadqiqot qilish uchun ishlatiladi[2][3].

"Korpora" so'zi ingliz tilida korpus so'zining ko'pligidir (ya'ni ko'plab shu singari ma'lumotlar bazasini anglatadi).

Nutq korpusining ikki turi mavjud:

  1. Nutqni o'qish - bu quyidagilarni o'z ichiga oladi:
    • Iqtiboslar
    • Radio eshittiruv yangiliklari
    • Leksikalar ro'yxati
    • Raqamlar ketma-ketligi
  2. Spontan nutq - bu quyidagilarni o'z ichiga oladi:
    • Dialoglar - ikki yoki undan ortiq odamlar o'rtasida (uchrashuvlarni o'z ichiga oladi; shunday korpuslardan biri KEC);
    • Hikoyalar - hikoya qiluvchi shaxs (bunday korpuslardan biri Buckeye Corpus );
    • Xaritadagi topshiriqlar - bir kishi boshqasiga xaritadagi mashrutni tushuntiradi;
    • Uchrashuv-vazifalar - ikki kishi individual jadvallar asosida umumiy uchrashuv vaqtini topishga harakat qiladi.

Nutq korpusining o'ziga xos turi - bu ona tili bo'lmagan ma'lumotlar bazasi bo'lib, bu korpusdagi nutqlar boshqa chet tili aksentida beriladi.

Yana qarang:[tahrir | manbasini tahrirlash]

  • Arab nutqi korpusi
  • Umumiy ovoz
  • EXMARalDA
  • Lingua Libre, onlayn bepul vosita
  • Bolalar nutqi korpuslari ro'yxati
  • Ona tili bo'lmagan ma'lumotlar bazasi
  • Praat
  • Og'zaki ingliz korpusi
  • BABEL nutq korpusi
  • TIMIT
  • Transkriptator
  • Transkripsiya (tilshunoslik)

Manbalar[tahrir | manbasini tahrirlash]

  1. Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.
  2. Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL]. 
  3. „Santa Barbara Corpus of Spoken American English | Department of Linguistics - UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.
  • Edvards, Jeyn / Lampert, Martin (tahrirlar) (1992): Talking Data - Diskurs tadqiqotida transkripsiya va kodlash. Hillsdeyl: Erlbaum.
  • Leech, Jeffrey / Myers, Greg / Thomas, Jenny (tahrirlar) (1995): Kompyuterda ingliz tili: Transkripsiya, belgilash va qo'llash. Xarlou: Longman.

Havolalar[tahrir | manbasini tahrirlash]

Andoza:Natural Language ProcessingTabiiy tilni qayta ishlash