Kontent qismiga oʻtish

Katta til modeli

Vikipediya, erkin ensiklopediya

Katta til modeli (large language model, LLM) — ulkan hajmdagi matnlar asosida o'z-o'zini nazorat qilish (self-supervised learning) usulida o'qitilgan mashinali o'rganish modelidir. Bu modellar tabiiy tilni qayta ishlash (NLP) vazifalari, xususan, matn yaratish, tarjima qilish va mantiqiy xulosa chiqarish uchun mo'ljallangan. Zamonaviy LLMlar asosan transformer arxitekturasiga asoslangan bo'lib, chatbotlarning asosiy imkoniyatlarini ta'minlaydi.

Mexanizm va arxitektura

[tahrir | manbasini tahrirlash]

LLMlar matnni qayta ishlashda tokenizatsiya (tokenization) usulidan foydalanadi, bunda matn raqamli indekslarga (tokenlarga) aylantiriladi. 2017-yilda taklif qilingan transformer arxitekturasi «o'z-o'ziga e'tibor» (self-attention) mexanizmi orqali ketma-ketlikdagi barcha elementlar o'rtasidagi bog'liqlikni masofasidan qat'i nazar bir vaqtda tahlil qiladi. Modellarning samaradorligi parametrlar soni, o'quv ma'lumotlari hajmi va hisoblash quvvati o'rtasidagi muvozanatga (Chinchilla scaling laws) bog'liq. Katta modellar milliardlab yoki trillionlab parametrlarga ega bo'lib, bu ularga murakkab mantiqiy amallarni bajarish imkonini beradi.

O'qitish va moslashtirish

[tahrir | manbasini tahrirlash]

Modellarni tayyorlash ikki bosqichda amalga oshiriladi:

  1. Dastlabki o'qitish (pre-training): Model ulkan ma'lumotlar to'plamida keyingi so'zni (tokenni) bashorat qilishni o'rganadi.
  2. Aniq vazifalarga moslashtirish (fine-tuning): Model ma'lum bir soha yoki xulq-atvor uchun qayta o'qitiladi.

Inson fikri asosida mustahkamlangan o'rganish (reinforcement learning from human feedback , RLHF) usuli model javoblarini inson kutganlariga moslashtirish, aniqlikni oshirish va zararli kontentni kamaytirishda hal qiluvchi ahamiyatga ega.

Tarixiy rivojlanish

[tahrir | manbasini tahrirlash]

LLMlar 1990-yillardagi statistik modellar va keyinchalik paydo bo'lgan rekurrent neyron tarmoqlaridan (RNN) evolyutsiya qildi. 2013-yilda Word2Vec (so'zlarni vektor ko'rinishida ifodalash) va 2014-yilda seq2seq modellari muhim qadam bo'ldi. 2017-yilda Google tomonidan «Attention Is All You Need» maqolasining e'lon qilinishi transformerlar davrini boshlab berdi. Shundan so'ng GPT-3 (2020), ChatGPT (2022) va GPT-4 (2023) kabi modellar o'zining ko'p vazifalilik imkoniyatlari bilan sohada inqilob qildi.

Cheklovlar va xavfsizlik

[tahrir | manbasini tahrirlash]

LLMlar uchun gallutsinatsiya (hallucination) — mantiqiy ko'ringan, ammo faktik jihatdan noto'g'ri ma'lumot yaratish asosiy muammo bo'lib qolmoqda. Shuningdek, modellar o'quv ma'lumotlaridagi ijtimoiy stereotiplarni o'zlashtirishi (algorithmic bias) va noto'g'ri qarashlarni aks ettirishi mumkin. Xavfsizlik nuqtai nazaridan prompt injection (ko'rsatmalarni chetlab o'tish) kabi kiberhujumlar modellar boshqaruvini qo'lga olish xavfini tug'diradi.

Ushbu maqola inglizcha Vikipediyadagi [1] maqolasi asosida yaratildi.