Matn korpusi

Tilshunoslikda korpus (koʻplikda corpora) yoki matn korpusi katta va tizimlangan matnlar toʻplamidan (hozirgi kunda odatda elektron saqlanadi va qayta ishlanadi) iborat til manbayidir. Korpus tilshunosligida ular muayyan til doirasida statistik tahlillarni amalga oshirish va gipotezani tekshirish, tildagi hodisalarni kuzatish yoki nazariy lingvistik qoidalarni tekshirish uchun foydalaniladi.

Umumiy tasavvur[tahrir | manbasini tahrirlash]

Korpusda bir tildagi (bir tilli korpus yoki monolingvistik korpus) yoki bir nechta tildagi (koʻp tilli korpus yoki multilingvistik korpus) matnli maʼlumotlar boʻlishi mumkin.

Korpuslarni lingvistik tadqiqotlar uchun yanada foydali qilish uchun, ular koʻpincha annotatsiya deb nomlanadigan jarayondan oʻtkaziladi. Korpusga izoh berishning misoli soʻz turkumlarini yorliqlash (teglash) yoki POS-yorliqlashdir, unda har bir soʻzning turkumi va shu turkumga tegishli kategoriyalari (feʼl, ot, sifatlar va boshqalar) haqidagi maʼlumotlar teglar (yorliqlar) koʻrinishida korpusga qoʻshiladi. Yana bir misol, har bir soʻzning lemma (oʻzak) shaklini koʻrsatish. Agar korpusning tili uni ishlatadigan tadqiqotchilar ishlaydigan til boʻlmasa, izohni ikki tilli qilish uchun chiziqlararo nashrlash qoʻllaniladi.

Baʼzi korpuslar tahlilning keyingi tizimlangan (strukturalangan) darajalariga ega. Xususan, bir qator kichik korpuslar ham toʻliq tahlil jarayonini amalga oshirishi mumkin. Bunday korpuslar odatda Treebanks yoki Parsed Corpora deb ataladai. Agar korpus toʻliq tizimlangan va toʻliq annotatsiyalangan boʻlsa, katta ehtimol bilan bu korpus kichik hajmga ega — 1-3 million atrofidagi soʻzdan iborat. Chunki korpusni toʻlaqonli tahlil qilib chiqish, hamma annotatsiyalarni amalga oshirish judayam qiyin jarayon hisoblanadi. Morfologiya, semantika va pragmatikaning tahlillarini ham oʻz ichiga olgan korpus yanada rivojlangan va soʻnggi bosqichga yetib kelgan korpus hisoblanadi.

Ilovalar[tahrir | manbasini tahrirlash]

Korpora korpus tilshunosligining asosiy bilim va maʼlumot omboridir. Korpus quyidagi muhim sohalarda ham qoʻllaniladi:

Til texnologiyasi, tabiiy tilni qayta ishlash, kompyuter tilshunosligi
- Turli korpuslarni qayta ishlash va tahlil qilish jarayoni, shuningdek, kompyuter tilshunosligi, nutqni aniqlash va mashina tarjimasida ham koʻplab mavzularni oʻz ichiga oladi, bu yerda koʻpincha nutq yorligʻi (nutqiy teglash) va boshqa maqsadlar uchun yashirin Markov modellarini yaratishda foydalaniladi. Korpus va ulardan olingan chastotalar roʻyxati tilni oʻqitish uchun foydalidir. Korpus chet tilida yozish ishlarida yordam berishning bir turi sifatida qaralishi mumkin, chunki foydalanuvchining ona tilisi boʻlmagan tillarning korpuslari asl matnlar orqali olingan kontekstual grammatik bilimlar manbayidir. Ulardan maqsadli foydalanib jumlalarni tuzish, matnlarni shakllantirishda samarali foydalanish mumkin.^[1]
Mashina tarjimasi
- Yonma-yon taqqoslash uchun maxsus formatlangan koʻp tilli korpuslar tizimlangan parallel korpus deyiladi. Ikki tildagi matnlarni oʻz ichiga olgan parallel korpusning ikki asosiy turi mavjud. Tarjima korpusi - bir tildagi matnlar boshqa tilga tarjima qilingan matnlar korpusi. Taqqoslanadigan korpus - matnlar janri va tarkibiga koʻra bir xil, ammo ular bir-birlarining tarjimalari emas.^[2] Parallel matnlardan foydalanish uchun matn segmentlarini (iboralar, yoki jumlalarni) identifikatsiyalash va matn turlari va janrlarini oʻzari moslashtirish, muvofiqlashtirish eng birinchi shartlardan hisoblanadi. Ikki til oʻrtasida Ikki til oʻrtasida tarjima qilish ishlarini amalga oshirish uchun mashina tarjimasi algoritmlari koʻpincha birinchi til korpusining elementli tarjimasi boʻlgan birinchi til korpusi va ikkinchi til korpusidan tashkil topgan parallel qismlar yordamida amalga oshiriladi.^[3]
Filologiya
- Matn korpusi tarixiy hujjatlarni (tarixiy matnlarni) oʻrganishda, masalan, qadimiy yozuvlarni ochishda yoki kotiblik fanida ham qoʻllaniladi. Baʼzi arxeologik korpuslar qisqa muddat davomida yashashi mumkin, ular oʻz vaqtida suratga olishni taʼminlaydi. 15-30 yillik Amarna harflari matnlari (mil . Avv . 1350), eng qisqa korpuslardan biri boʻlishi mumkin. Qadimgi shaharning korpusi (masalan, Turkiyaning „ Kültepe matnlari“), ularning topilgan joy sanasi boʻyicha saralanadigan bir nechta korpus orqali paydo boʻlishi mumkin.

Baʼzi taniqli matn korpuslari[tahrir | manbasini tahrirlash]

Shuningdek koʻrishingiz mumkin[tahrir | manbasini tahrirlash]

Konkordans
Korpus tilshunosligi
Lingvistik maʼlumotlar konsorsiumi
Tabiiy tilni qayta ishlash
Tabiiy tillar uchun vositalar toʻplami
Matnni parallel ravishda tizimlash
Qidiruv tizimlari: ular „veb-korpus“ ga kirishadi.
Nutq korpusi
Tarjima xotirasi
Daraxtsimon tizim
Zipf qonuni

Manbalar[tahrir | manbasini tahrirlash]

↑ Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing (Wayback Machine saytida 2016-04-02 sanasida arxivlangan). Journal of Second Language Writing, 13(4), 257-283. Retrieved 21-mart 2012-yil.
↑ Wołk, K.; Marasek, K.. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing (Springer) 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.
↑ Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence (Springer): 32–40. ISBN 978-3-319-24032-9.

Havolalar[tahrir | manbasini tahrirlash]

ACL SIGLEX manba havolalari: Matn korpuslari (Wayback Machine saytida 2013-08-13 sanasida arxivlangan)
Lingvistik korpuslarni rivonlantirish: amaliy ishlar uchun qoʻllanma
Bepul namunalar (bepul emas), veb-korpus (har biri 45-425 million soʻz): Amerika (COCA, COHA, TIME), Britaniya (BNC), ispan, portugal
Charlz universitetining sanʼat fakultetida oʻqitiladigan tillarning sinxron parallel korpuslarini yaratishga qaratilgan Interkorp
Sketch Engine: bepul kirish imkoniyati va foydalanish imkoni boʻlgan ochiq korpus
TS Corpus — akademik tadqiqotlar olib borish uchun moʻljallangan Turk Korpus.
Turkiya milliy korpusi — zamonaviy turk tilining umumiy korpusi (Wayback Machine saytida 2015-04-02 sanasida arxivlangan)
Gonkong Baptistlar Universiteti Kutubxonasi tomonidan taqdim etilgan AQSh, Gonkong, Tayvan va Xitoyning nutqlari bilan ommaga tanishtiriladigan siyosiy nutqlar korpusi.
Rossiya milliy korpusi

[Yoon-1] Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing (Wayback Machine saytida 2016-04-02 sanasida arxivlangan). Journal of Second Language Writing, 13(4), 257-283. Retrieved 21-mart 2012-yil.

[2] Wołk, K.; Marasek, K.. "A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation". Advances in Intelligent Systems and Computing (Springer) 275: 107–114. ISBN 978-3-319-05950-1. ISSN 2194-5357.

[3] Wołk, K.; Marasek, K. (2015). "Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora". Lecture Notes in Artificial Intelligence (Springer): 32–40. ISBN 978-3-319-24032-9.

[1]

[2]

[3]