Nutq korpuslari
Bu maqolaga boshqa birorta sahifadan
ishorat yoʻq. (May 2024) |
Bu maqola avtomat tarjima qilingan yoki mashina tarjimasi tayinli oʻzgartirishsiz chop etilgani eʼtirof etilmoqda. Tarjimani tekshirib chiqish hamda maqoladagi mazmuniy va uslubiy xatolarini tuzatish kerak. Siz maqolani tuzatishga koʻmaklashishingiz mumkin. (Shuningdek, tarjima boʻyicha tavsiyalar bilan tanishib chiqishingiz mumkin.) DIQQAT! BU OGOHLANTIRISHNI OʻZBOSHIMCHALIK BILAN OLIB TASHLAMANG! Maqolaning originali koʻrsatilinmagan. |
Nutq korpusi (yoki og'zaki korpus ) - bu nutq audio fayllar va matn transkripsiyalarining ma'lumotlar bazasi. Boshqa ko'plab korpuslar singari nutq texnologiyasidagi nutq korpusi, akustik modellarni yaratish maqsadida foydalaniladi (keyinchalik ular nutqni aniqlash yoki so'zlovchini identifikatsiya qilish mexanizmi bilan birgalikda ishlatilishi mumkin)[1]. Tilshunoslikda so'zlashuv korpusi fonetik, dialoglar tahlili, dialektologiya va boshqa shu kabi ko'plab sohalarda tadqiqot qilish uchun ishlatiladi[2][3].
"Korpora" so'zi ingliz tilida korpus so'zining ko'pligidir (ya'ni ko'plab shu singari ma'lumotlar bazasini anglatadi).
Nutq korpusining ikki turi mavjud:
- Nutqni o'qish - bu quyidagilarni o'z ichiga oladi:
- Iqtiboslar
- Radio eshittiruv yangiliklari
- Leksikalar ro'yxati
- Raqamlar ketma-ketligi
- Spontan nutq - bu quyidagilarni o'z ichiga oladi:
- Dialoglar - ikki yoki undan ortiq odamlar o'rtasida (uchrashuvlarni o'z ichiga oladi; shunday korpuslardan biri KEC);
- Hikoyalar - hikoya qiluvchi shaxs (bunday korpuslardan biri Buckeye Corpus );
- Xaritadagi topshiriqlar - bir kishi boshqasiga xaritadagi mashrutni tushuntiradi;
- Uchrashuv-vazifalar - ikki kishi individual jadvallar asosida umumiy uchrashuv vaqtini topishga harakat qiladi.
Nutq korpusining o'ziga xos turi - bu ona tili bo'lmagan ma'lumotlar bazasi bo'lib, bu korpusdagi nutqlar boshqa chet tili aksentida beriladi.
Yana qarang:[tahrir | manbasini tahrirlash]
- Arab nutqi korpusi
- Umumiy ovoz
- EXMARalDA
- Lingua Libre, onlayn bepul vosita
- Bolalar nutqi korpuslari ro'yxati
- Ona tili bo'lmagan ma'lumotlar bazasi
- Praat
- Og'zaki ingliz korpusi
- BABEL nutq korpusi
- TIMIT
- Transkriptator
- Transkripsiya (tilshunoslik)
Manbalar[tahrir | manbasini tahrirlash]
- ↑ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.
- ↑ Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL].
- ↑ „Santa Barbara Corpus of Spoken American English | Department of Linguistics - UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.
- Edvards, Jeyn / Lampert, Martin (tahrirlar) (1992): Talking Data - Diskurs tadqiqotida transkripsiya va kodlash. Hillsdeyl: Erlbaum.
- Leech, Jeffrey / Myers, Greg / Thomas, Jenny (tahrirlar) (1995): Kompyuterda ingliz tili: Transkripsiya, belgilash va qo'llash. Xarlou: Longman.
Havolalar[tahrir | manbasini tahrirlash]
- Og'zaki Amerika ingliz tilining Santa Barbara korpusi
- Buckeye Corpus Suhbat nutqining Baki korpusi
- KEC -- Karl Eberxards korpusi o'z-o'zidan gapiradigan janubiy nemis tilidagi dialoglar - audio va artikulyar yozuvlar
- Ko'p tillilik bo'yicha tadqiqot markazidagi Og'zaki til korpusi (Wayback Machine saytida 2017-05-06 sanasida arxivlangan)
- ODTU Anqaradagi Og'zaki Turk Korpusi
- ILTEC Lisbondagi Corp-Oral Corpus bilan Corpus Client bilan gaplashdi
- VoxForge - ochiq manbali nutq korpusi
- OLAC: Ochiq til arxivlari hamjamiyati
- Nutq signallari uchun BAS Bavariya arxivi
- Hind ingliz va hind tillari uchun Simmortel Speech Recognition Corpus
- ELRA: Yevropa til resurslari assotsiatsiyasi
- Polsha tilining PELCRA suhbat korpusi
- Arab nutqi korpusi
- Siyosiy nutqlar korpusi : Gonkong Baptist universiteti kutubxonasi tomonidan ishlab chiqilgan Amerika va Xitoy siyosatchilarining siyosiy nutqlariga bepul kirish
- Inson nutqining katta multimodal korpusi
Andoza:Natural Language ProcessingTabiiy tilni qayta ishlash