Bitmatn

Vikipediya, ochiq ensiklopediya

Parallel matn ( bitext ) - bu birtildagi matn bo'lib, uning boshqa tilga tarjimasi "Parallel matnni to'g'irlash" - parallel matnning har ikkala yarmida mos keladigan jumlalarni aniqlashga aytiladi. Parallel matnlarningtta asosiy to'plamlari "parallel sirt" deb nomlanadi (eng. parallel corpora ). Jumlalar darajasidagi korpusning parallel moslashuvi lingvistik tadqiqotlarning turli jihatlari uchun zaruriy shart hisoblanadi. Tarjima jarayonida jumlalarni ajratish, birlashtirish, oʻchirish, kiritish yoki tartibni oʻzgartirish mumkin. Natijada, moslashish ko'pincha qiyin vazifaga aylanib ketadi.

Bitmatn[tahrir | manbasini tahrirlash]

Tarjima tadqiqotlari sohasida “bitmatn” tegishli matnning manba va maqsadli til versiyalaridan tashkil topgan birlashtirilgan hujjatdir. Bitmatnlar matnning asl nusxasini va uning tarjimasini avtomatik ravishda tekislash imkonini beruvchi "alignment tools" ( alignment tool ) yoki "bitext tools" ( bitext tool ) deb nomlangan maxsus kompyuter dasturlari yordamida yaratiladi. Bunday dasturlar, qoida tariqasida, har bir jumla uchun ikkita matnga (asl va tarjima) mos keladi. Bittekstlar to'plami "bitmatn ma'lumotlar bazasi" yoki "ikki tilli korpus" deb ataladi va mos yozuvlar sifatida va to'g'ri kombinatsiyalarni topish uchun ishlatilishi mumkin.

Bittekst g'oyasi Brayan Xarrisga tegishli bo'lib, u ushbu kontseptsiya bo'yicha birinchi marta 1988 yilda tadqiqot yozgan va keyinchalik Monreal universiteti (Université de Montréal) bir guruh olimlari tomonidan RALI ( Recherche appliquée en linguistique informatique ) tomonidan ishlab chiqilgan. yoki Hisoblash tilshunosligida amaliy tadqiqotlar). Guruh tabiiy matnni qayta ishlashni o'rganuvchi dasturchilar va tilshunoslardan iborat edi. Bitext kontseptsiyasining taniqli targ'ibotchilari - Per Isabelle va Klod Bédard.

Eslatmalar[tahrir | manbasini tahrirlash]

"Bittekst" g'oyasi tarjima xotirasi tushunchasi bilan juda ko'p umumiylikka ega. Ularning asosiy farqi shundaki, tarjima xotirasi matn segmentlari (mos keladigan jumlalar) asl kontekstga aloqador bo‘lmagan tarzda joylashtirilgan, ya’ni gaplarning asl ketma-ketligi yo‘qolgan ma’lumotlar bazasidir. Bittekst jumlalarning asl ketma-ketligini saqlab qoladi. Turli xil avtomatlashtirilgan tarjima tizimlari o'rtasida tarjima xotirasi ma'lumotlar bazalarini almashish uchun standart format TMX formatidir (LISA (Mahalliylashtirish Industries Assotsiatsiyasi) tomonidan nashr etilgan XML lug'ati). TMX gaplarning asl tartibini saqlashga imkon beradi.

Bitmatnlar avtomatlashtirilgan dasturlar uchun emas, balki mutaxassis tarjimonlar maslahati uchun mos yozuvlar vositasi sifatida yaratilgan. Shuning uchun, tarjima xotirasining buzilishiga olib kelishi mumkin bo'lgan kichik hizalama xatolari yoki noaniqliklari ular uchun muhim emas.

Yana qarang[tahrir | manbasini tahrirlash]

Eslatmalar[tahrir | manbasini tahrirlash]

Adabiyot[tahrir | manbasini tahrirlash]

  • Ушакова Т.. Читаем параллельные тексты (Подробное описание методики чтения параллельных текстов). 

Internetda Parallel Korpora[tahrir | manbasini tahrirlash]

Parallel matnlarni tekislash uchun dasturlar[tahrir | manbasini tahrirlash]

  • hunalign - bu alohida so'zlarning tarjimalari statistikasini hisobga oladigan, ammo ishonchli ishlashi uchun etarlicha katta korpusni talab qiladigan to'liq avtomatik vosita.
  • Trados Winalign
  • Wordfast vositalari - MS Word makroslari to'plami sifatida amalga oshiriladi, Wordfast dasturidan farqli o'laroq, tarjima xotirasi sifatida ishlaydi, tekislash vositalari (PPni to'ldirish uchun) bepul mavjud.
  • ABBYY Aligner - bu parallel matnlarni avtomatik ravishda tekislash imkonini beruvchi shaxsiy kompyuter dasturi.

Hujjatlar[tahrir | manbasini tahrirlash]