Nutq korpuslari

Nutq korpusi (yoki og'zaki korpus ) - bu nutq audio fayllar va matn transkripsiyalarining ma'lumotlar bazasi. Boshqa ko'plab korpuslar singari nutq texnologiyasidagi nutq korpusi, akustik modellarni yaratish maqsadida foydalaniladi (keyinchalik ular nutqni aniqlash yoki so'zlovchini identifikatsiya qilish mexanizmi bilan birgalikda ishlatilishi mumkin)^[1]. Tilshunoslikda so'zlashuv korpusi fonetik, dialoglar tahlili, dialektologiya va boshqa shu kabi ko'plab sohalarda tadqiqot qilish uchun ishlatiladi^[2]^[3].

"Korpora" so'zi ingliz tilida korpus so'zining ko'pligidir (ya'ni ko'plab shu singari ma'lumotlar bazasini anglatadi).

Nutq korpusining ikki turi mavjud:

Nutqni o'qish - bu quyidagilarni o'z ichiga oladi:
- Iqtiboslar
- Radio eshittiruv yangiliklari
- Leksikalar ro'yxati
- Raqamlar ketma-ketligi
Spontan nutq - bu quyidagilarni o'z ichiga oladi:
- Dialoglar - ikki yoki undan ortiq odamlar o'rtasida (uchrashuvlarni o'z ichiga oladi; shunday korpuslardan biri KEC);
- Hikoyalar - hikoya qiluvchi shaxs (bunday korpuslardan biri Buckeye Corpus );
- Xaritadagi topshiriqlar - bir kishi boshqasiga xaritadagi mashrutni tushuntiradi;
- Uchrashuv-vazifalar - ikki kishi individual jadvallar asosida umumiy uchrashuv vaqtini topishga harakat qiladi.

Nutq korpusining o'ziga xos turi - bu ona tili bo'lmagan ma'lumotlar bazasi bo'lib, bu korpusdagi nutqlar boshqa chet tili aksentida beriladi.

Yana qarang:[tahrir | manbasini tahrirlash]

Arab nutqi korpusi
Umumiy ovoz
EXMARalDA
Lingua Libre, onlayn bepul vosita
Bolalar nutqi korpuslari ro'yxati
Ona tili bo'lmagan ma'lumotlar bazasi
Praat
Og'zaki ingliz korpusi
BABEL nutq korpusi
TIMIT
Transkriptator
Transkripsiya (tilshunoslik)

Manbalar[tahrir | manbasini tahrirlash]

↑ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.
↑ Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL].
↑ „Santa Barbara Corpus of Spoken American English | Department of Linguistics - UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.

Edvards, Jeyn / Lampert, Martin (tahrirlar) (1992): Talking Data - Diskurs tadqiqotida transkripsiya va kodlash. Hillsdeyl: Erlbaum.
Leech, Jeffrey / Myers, Greg / Thomas, Jenny (tahrirlar) (1995): Kompyuterda ingliz tili: Transkripsiya, belgilash va qo'llash. Xarlou: Longman.

Havolalar[tahrir | manbasini tahrirlash]

Og'zaki Amerika ingliz tilining Santa Barbara korpusi
Buckeye Corpus Suhbat nutqining Baki korpusi
KEC -- Karl Eberxards korpusi o'z-o'zidan gapiradigan janubiy nemis tilidagi dialoglar - audio va artikulyar yozuvlar
Ko'p tillilik bo'yicha tadqiqot markazidagi Og'zaki til korpusi
ODTU Anqaradagi Og'zaki Turk Korpusi
ILTEC Lisbondagi Corp-Oral Corpus bilan Corpus Client bilan gaplashdi
VoxForge - ochiq manbali nutq korpusi
OLAC: Ochiq til arxivlari hamjamiyati
Nutq signallari uchun BAS Bavariya arxivi
Hind ingliz va hind tillari uchun Simmortel Speech Recognition Corpus
ELRA: Yevropa til resurslari assotsiatsiyasi
Polsha tilining PELCRA suhbat korpusi
Arab nutqi korpusi
Siyosiy nutqlar korpusi : Gonkong Baptist universiteti kutubxonasi tomonidan ishlab chiqilgan Amerika va Xitoy siyosatchilarining siyosiy nutqlariga bepul kirish
Inson nutqining katta multimodal korpusi

Andoza:Natural Language ProcessingTabiiy tilni qayta ishlash

[1] Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (September 2020). „Optimization of data-driven filterbank for automatic speaker verification“. Digital Signal Processing. 104-jild. 102795-bet. arXiv:2007.10729. Bibcode:2020DSP...10402795S. doi:10.1016/j.dsp.2020.102795.

[2] Reece, Andrew; Cooney, Gus; Bull, Peter; Chung, Christine; Dawson, Bryn; Fitzpatrick, Casey; Glazer, Tamara; Knox, Dean et al. (2022-03-01). "Advancing an Interdisciplinary Science of Conversation: Insights from a Large Multimodal Corpus of Human Speech". arXiv:2203.00674 [cs.CL].

[3] „Santa Barbara Corpus of Spoken American English | Department of Linguistics - UC Santa Barbara“. www.linguistics.ucsb.edu. Qaraldi: 2023-yil 26-aprel.

[1]

[2]

[3]