Sunʼiy neyron tarmoqlari

Vikipediya, ochiq ensiklopediya
Navigatsiya qismiga oʻtish Qidirish qismiga oʻtish

   

Sunʼiy neyron tarmoq — bu miyadagi neyronlarning soddalashtirilishidan ilhomlangan oʻzaro bogʻlangan tugunlar guruhi. Bu erda har bir aylana tugun sunʼiy neyroNTi ifodalaydi va oʻq bir sunʼiy neyroNTing chiqishidan boshqasining kirishiga bogʻlanishni anglatadi.

Sunʼiy neyron tarmoqlari (SNT), odatda oddiygina neyron tarmoqlari (NT) deb ataladi, hayvonlar miyasini tashkil etuvchi biologik neyron tarmoqlardan ilhomlangan hisoblash tizimlari.

SNT sunʼiy neyronlar deb ataladigan bogʻlangan birliklar yoki tugunlar toʻplamiga asoslanadi, ular biologik miyadagi neyronlarni erkin modellashtiradi. Sunʼiy neyron signallarni oladi, keyin ularni qayta ishlaydi va unga ulangan neyronlarga signal berishi mumkin. Ulanishdagi „signal“ haqiqiy raqam boʻlib, har bir neyroNTing chiqishi uning kirishlari yigʻindisining chiziqli boʻlmagan funktsiyasi bilan hisoblanadi. Ulanishlar deyiladi qirralar. Neyronlar va chekkalar odatda oʻrganish davom etayotganda sozlanadigan vaznga ega. Neyronlar shunday chegaraga ega boʻlishi mumkinki, signal faqat yigʻilgan signal ushbu chegarani kesib oʻtgan taqdirdagina yuboriladi. Odatda, neyronlar qatlamlarga yigʻiladi. Signallar birinchi qatlamdan (kirish qatlami), oxirgi qatlamga (chiqish qatlami), ehtimol, qatlamlarni bir necha marta bosib oʻtgandan keyin oʻtadi.

Trening[tahrir | manbasini tahrirlash]

Neyron tarmoqlar misollarni qayta ishlash orqali oʻrganadi (yoki oʻqitiladi), ularning har biri maʼlum „kirish“ va „natija“ ni oʻz ichiga oladi va ular oʻrtasida ehtimollik bilan oʻlchangan assotsiatsiyalarni hosil qiladi, ular tarmoqning oʻzida saqlanadigan maʼlumotlar tuzilmasida saqlanadi. Berilgan misol boʻyicha neyron tarmoqni oʻrgatish odatda tarmoqning qayta ishlangan chiqishi (koʻpincha bashorat) va maqsadli chiqishi oʻrtasidagi farqni aniqlash orqali amalga oshiriladi. Keyin tarmoq oʻz vaznli assotsiatsiyalarini oʻrganish qoidasiga koʻra va ushbu xato qiymatidan foydalanib sozlaydi. Ushbu tuzatishlarning etarli sonidan soʻng, mashgʻulot muayyan mezonlar asosida toʻxtatilishi mumkin.

Bunday tizimlar misollarni koʻrib chiqish orqali topshiriqlarni bajarishni „oʻrganadi“, odatda vazifaga xos qoidalar bilan dasturlashtirilmaydi. Masalan, tasvirni aniqlashda ular „mushuk“ yoki „mushuk yoʻq“ deb qoʻlda yorliqlangan misol tasvirlarni tahlil qilish va boshqa tasvirlardagi mushuklarni aniqlash uchun natijalardan foydalanish orqali mushuklar bor tasvirlarni aniqlashni oʻrganishi mumkin.

Tarix[tahrir | manbasini tahrirlash]

Uorren Makkallok va Uolter Pits[1] (1943) neyron tarmoqlar uchun hisoblash modelini yaratish orqali mavzuni ochdilar. 1940-yillarning oxirida DO Hebb[2] neyron plastisiya mexanizmiga asoslangan taʼlim gipotezasini yaratdi, u Hebbian oʻrganish nomi bilan mashhur boʻldi. Farley va Uesli A. Klark[3] (1954) Hebbian tarmogʻini simulyatsiya qilish uchun dastlab hisoblash mashinalaridan foydalangan. 1958-yilda psixolog Frenk Rozenblat Amerika Qoʻshma Shtatlari Dengiz tadqiqotlari boshqarmasi tomonidan moliyalashtirilgan birinchi sunʼiy neyron tarmogʻi boʻlgan perseptroNTi[4][5][6][7] ixtiro qildi.[8] Koʻp qatlamli birinchi funktsional tarmoqlar 1965-yilda Ivaxnenko va Lapa tomonidan Maʼlumotlar bilan ishlashning guruh usuli sifatida nashr etilgan.[9][10][11] Uzluksiz orqaga tarqalish asoslari[9][12][13][14] boshqaruv nazariyasi kontekstida 1960-yilda Kelli[15] va 1961-yilda Brayson[16] tomonidan dinamik dasturlash tamoyillaridan foydalangan holda olingan. Keyinchalik tadqiqot Minsky va Papert (1969) dan soʻng toʻxtab qoldi, ular asosiy[17].

1970-yilda Seppo LiNTainmaa ichki differensiallanuvchi funktsiyalarning diskret ulangan tarmoqlarini avtomatik farqlashning umumiy usulini (AD) nashr etdi.[18] 1973-yilda Dreyfus boshqaruvchilar parametrlarini xato gradientlariga mutanosib ravishda moslashtirish uchun orqaga tarqalish usulidan foydalangan.[19] 1982-yilda u LiNTainmaaning AD usulini neyron tarmoqlarga keng qoʻllanilgan usulda qoʻlladi.[12][20]

Bu 1980-yillarda amaliy sunʼiy neyron tarmoqlarni ishlab chiqish uchun koʻproq ishlov berish quvvatini taʼminladi.[21]

1986-yilda Rumelhart, Xinton va Uilyams ketma-ketlikda keyingi soʻzni bashorat qilishga oʻrgatilganda, orqa tarqalish soʻzlarning qiziqarli ichki koʻrinishlarini xususiyat vektorlari sifatida oʻrganganligini koʻrsatdi.[22]

1988-yildan boshlab,[23][24] neyron tarmoqlardan foydalanish oqsil tuzilishini bashorat qilish sohasini oʻzgartirdi, birinchi kaskadli tarmoqlar bir nechta ketma-ketliklarni tekislash orqali ishlab chiqarilgan profillar (matritsalar) boʻyicha oʻqitilganda.[25]

Deformatsiyaga tolerantlik bilan yordam berish uchun max-pooling joriy etildi.[26][27][28] Shmidxuber koʻp darajali tarmoqlar ierarxiyasini qabul qildi (1992) nazoratsiz oʻrganish orqali bir vaqtning oʻzida bir daraja oldindan oʻqitilgan va orqaga tarqalish orqali nozik sozlangan.[29]

Neyron tarmoqlarning dastlabki muvaffaqiyatlari birja bozorini bashorat qilish va 1995-yilda (asosan) oʻzini oʻzi boshqaradigan avtomobilni oʻz ichiga oladi.[30]

Geoffrey Xinton va boshqalar. (2006) har bir qatlamni modellashtirish uchun cheklangan BoltzmSNT mashinasi[31]. 2012-yilda Ng va Din faqat yorliqsiz tasvirlarni tomosha qilish orqali mushuklar kabi yuqori darajadagi tushunchalarni tan olishni oʻrgangan tarmoq yaratdilar.[32] Nazoratsiz oldindan oʻqitish va GPU va taqsimlangan hisoblash quvvatining ortishi kattaroq tarmoqlardan foydalanishga imkon berdi, xususan, tasvir va vizual aniqlash muammolarida " chuqur oʻrganish " nomi bilan mashhur boʻldi.[33]

Ciresan va uning hamkasblari (2010)[34] gradient muammosining yoʻqolishiga qaramay, GPUlar koʻp qatlamli oldinga oʻtiladigan neyron tarmoqlar uchun orqaga tarqalishni amalga oshirish mumkinligini koʻrsatdi. 2009 va 2012-yillar oraligʻida SNT tasvirlarni aniqlash tanlovlarida sovrinlarni qoʻlga kirita boshladi, dastlab naqshni aniqlash va qoʻl yozuvini tanib olish boʻyicha turli vazifalarda inson darajasidagi ishlashga yaqinlashdi.[35]Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS’22), 7-10 December 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545-552.[36][37][38].2009-yilda oʻrganiladigan uchta til haqida oldindan maʼlumotga ega boʻlmagan holda qoʻl yozuvini bogʻlash boʻyicha uchta tanlovda gʻolib chiqdi.[37][36]

Ciresan va uning hamkasblari yoʻl belgilarini tanib olish(IJCNT 2012) kabi mezonlarda insoNTing raqobatbardosh/gʻayritabiiy ishlashiga[39]erishish uchun birinchi namuna tan oluvchilarni yaratdilar.

Modellar[tahrir | manbasini tahrirlash]

Neyron va miyelinli akson, dendritlardagi kirishlardan akson terminallaridagi chiqishlarga signal oqimi bilan.

SNT anʼanaviy algoritmlar unchalik muvaffaqiyatli boʻlmagan vazifalarni bajarish uchun inson miyasining arxitekturasidan foydalanishga urinish sifatida boshlandi. Neyronlar bir-biri bilan turli naqshlarda bogʻlangan, bu baʼzi neyronlarning chiqishi boshqalarning kirishiga aylanishiga imkon beradi. Tarmoq yoʻnaltirilgan, vaznli grafik hosil qiladi.[40]

Sunʼiy neyron tarmogʻi simulyatsiya qilingan neyronlar toʻplamidan iborat.Har bir neyron boshqa tugunlarga biologik mos keladigan bogʻlanishlar orqali bogʻlangan tugundir.Har bir boʻgʻiNTing vazni bor, bu bir tuguNTing boshqasiga taʼsir kuchini belgilaydi.[41]

Sunʼiy neyronlar[tahrir | manbasini tahrirlash]

SNT kontseptual ravishda biologik neyronlardan olingan sunʼiy neyronlardan iborat. Har bir sunʼiy neyron kirishga ega va bir nechta boshqa neyronlarga yuborilishi mumkin boʻlgan bitta chiqishni ishlab chiqaradi.[42]Kirishlar tasvirlar yoki hujjatlar kabi tashqi maʼlumotlar namunasining xususiyat qiymatlari boʻlishi mumkin yoki ular boshqa neyronlarning chiqishi boʻlishi mumkin.

NeyroNTing chiqishini topish uchun, avvalo, kirishlardan neyronga boʻlgan ulanishlar ogʻirligi bilan oʻlchangan barcha kirishlarning vaznli yigʻindisini olishimiz kerak. Biz bu summaga noaniq atama qoʻshamiz.[43] Ushbu vaznli summa baʼzan faollashtirish deb ataladi.Dastlabki maʼlumotlar tasvirlar va hujjatlar kabi tashqi maʼlumotlardir. Yakuniy natijalar tasvirdagi ob’ektni tanib olish kabi vazifani bajaradi.[44]Neyronlar odatda bir nechta qatlamlarga, ayniqsa chuqur oʻrganishda tashkil etilgan.Neyronlari faqat oldingi va keyingi qatlamlarning neyronlari bilan bogʻlanadi. Yakuniy natijani beradigan qatlam chiqish qatlamidir.Ular birlashma boʻlishi mumkin, bu erda bir qatlamdagi neyronlar guruhi keyingi qatlamdagi bitta neyronga ulanadi va shu bilan bu qatlamdagi neyronlar sonini kamaytiradi.[45] Faqatgina shunday ulanishga ega boʻlgan neyronlar yoʻnaltirilgan asiklik grafikni hosil qiladi va oldinga besleme tarmoqlari</i> sifatida tanilgan.[46] Shu bilan bir qatorda, bir xil yoki oldingi qatlamlardagi neyronlar oʻrtasida ulanishga imkon beruvchi tarmoqlar takroriy tarmoqlar deb nomlanadi .[47]

Giperparametr[tahrir | manbasini tahrirlash]

Giperparametr doimiy parametr boʻlib, uning qiymati oʻquv jarayoni boshlanishidan oldin oʻrnatiladi. Parametrlarning qiymatlari oʻrganish orqali olinadi. Giperparametrlarga oʻrganish tezligi, yashirin qatlamlar soni va partiya hajmi kiradi.[48] Baʼzi giperparametrlarning qiymatlari boshqa giperparametrlarnikiga bogʻliq boʻlishi mumkin.

Oʻrganish[tahrir | manbasini tahrirlash]

Oʻrganish — bu namunaviy kuzatishlarni hisobga olgan holda vazifani yaxshiroq hal qilish uchun tarmoqni moslashtirish. Oʻrganish natijaning aniqligini oshirish uchun tarmoqning ogʻirliklarini (va ixtiyoriy chegaralarni) sozlashni oʻz ichiga oladi. Qoʻshimcha kuzatishlarni oʻrganayotganda oʻrganish tugallangan boʻlib, xatolik darajasini kamaytirmaydi. Agar oʻrganganingizdan soʻng, xato darajasi juda yuqori boʻlsa, tarmoq odatda qayta ishlab chiqilishi kerak. Amalda bu oʻrganish davomida davriy ravishda baholanadigan xarajat funksiyasini aniqlash orqali amalga oshiriladi. Xarajat koʻpincha statistik maʼlumot sifatida aniqlanadi, uning qiymati faqat taxminiy baholanishi mumkin. Chiqishlar aslida raqamlardir, shuning uchun xatolik past boʻlsa, chiqish (deyarli mushuk) va toʻgʻri javob (mushuk) oʻrtasidagi farq kichik boʻladi. Koʻpgina oʻrganish modellarini optimallashtirish nazariyasi va statistik baholashning toʻgʻridan-toʻgʻri qoʻllanilishi sifatida koʻrish mumkin.[49][40]

Oʻrganish darajasi[tahrir | manbasini tahrirlash]

Oʻrganish tezligi modelning har bir kuzatishdagi xatolarni tuzatish uchun koʻrsatadigan tuzatish qadamlari hajmini belgilaydi.[50] Yuqori oʻrganish tezligi mashgʻulot vaqtini qisqartiradi, ammo past aniqlik bilan, pastroq oʻrganish koʻproq vaqt talab etadi, lekin aniqroq boʻlishi mumkin. Quickprop kabi optimallashtirishlar, birinchi navbatda, xatolarni minimallashtirishni tezlashtirishga qaratilgan boʻlsa, boshqa yaxshilanishlar asosan ishonchlilikni oshirishga harakat qiladi. Tarmoq ichidagi tebranishlarni, masalan, ulanish ogʻirliklarining oʻzgarishini oldini olish va konvergentsiya tezligini yaxshilash uchun takomillashtirish moslashtirilgan oʻrganish tezligidan foydalanadi, bu mos ravishda oshiradi yoki kamayadi.[51] 0 ga yaqin momentum gradientni taʼkidlaydi, 1 ga yaqin qiymat esa oxirgi oʻzgarishlarni taʼkidlaydi.

Narx funksiyasi[tahrir | manbasini tahrirlash]

Xarajat funktsiyasini ad hoc aniqlash mumkin boʻlsa-da, koʻpincha tanlov funktsiyaning kerakli xususiyatlari (masalan, qavariqlik) yoki modeldan kelib chiqqanligi sababli aniqlanadi (ehtimollik modelida modelning orqa ehtimoli teskari sifatida ishlatilishi mumkin).

Orqaga tarqalish[tahrir | manbasini tahrirlash]

Orqa tarqalish — bu oʻrganish jarayonida aniqlangan har bir xatoni qoplash uchun ulanish ogʻirliklarini sozlash uchun ishlatiladigan usul. Ogʻirlikni yangilash stokastik gradient tushishi yoki boshqa usullar orqali amalga oshirilishi mumkin, masalan, Extreme Learning Machines,[52] „No-prop“ tarmoqlari,[53] orqaga yoʻl qoʻymasdan mashq qilish,[54] „vaznsiz“ tarmoqlar,[55][56] ][56] va koNTektsionist boʻlmagan neyron tarmoqlar.

Paradigmalarni oʻrganish[tahrir | manbasini tahrirlash]

Uchta asosiy taʼlim paradigmalari nazorat ostida oʻrganish, nazoratsiz oʻrganish va mustahkamlovchi oʻrganishdir. Ularning har biri maʼlum bir oʻquv vazifasiga mos keladi

Nazorat ostida oʻrganish[tahrir | manbasini tahrirlash]

Nazorat ostidagi oʻrganish juftlashtirilgan kirishlar va kerakli natijalar toʻplamidan foydalanadi..Bu holda xarajat funktsiyasi notoʻgʻri ajratmalarni bartaraf etish bilan bogʻliq.[57] Keng tarqalgan ishlatiladigan xarajat oʻrtacha kvadrat xato boʻlib, u tarmoqning chiqishi va kerakli natija oʻrtasidagi oʻrtacha kvadrat xatoni minimallashtirishga harakat qiladi. Nazorat ostida oʻrganish uchun mos boʻlgan vazifalar naqshni aniqlash (klassifikatsiya deb ham ataladi) va regressiya (funktsiyani yaqinlashish deb ham ataladi) hisoblanadi. Nazorat ostida oʻrganish ketma-ket maʼlumotlarga ham tegishli (masalan, qoʻlda yozish, nutq va imo- ishoralarni aniqlash uchun).

Nazoratsiz oʻrganish[tahrir | manbasini tahrirlash]

Xarajatlar funktsiyasi vazifaga (model sohasi) va har qanday apriori taxminlarga (modelning yashirin xususiyatlari, uning parametrlari va kuzatilgan oʻzgaruvchilar) bogʻliq. Arzimas misol sifatida modelni koʻrib chiqing qayerda doimiy va xarajat hisoblanadi . Xarajat funktsiyasi ancha murakkab boʻlishi mumkin. Uning shakli qoʻllanilishiga bogʻliq: masalan, siqishda u oʻrtasidagi oʻzaro maʼlumot bilan bogʻliq boʻlishi mumkin va , holbuki, statistik modellashtirishda bu maʼlumotlar berilgan modelning posterior ehtimoli bilan bogʻliq boʻlishi mumkin (esda tutingki, bu ikkala misolda ham bu miqdorlar minimallashtirilgan emas, balki maksimallashtiriladi).

Oʻrganishni mustahkamlash[tahrir | manbasini tahrirlash]

Video oʻyinlarni oʻynash kabi ilovalarda aktyor bir qator harakatlarni amalga oshiradi va har biridan keyin atrof-muhitdan umuman oldindan aytib boʻlmaydigan javob oladi. Oʻqitishni mustahkamlashda maqsad uzoq muddatli (kutilgan yigʻilgan) xarajatlarni minimallashtiradigan harakatlarni amalga oshirish uchun tarmoqni tortish (siyosatni ishlab chiqish) hisoblanadi. Vaqtning har bir nuqtasida agent biror harakatni amalga oshiradi va atrof-muhit baʼzi (odatda nomaʼlum) qoidalarga koʻra kuzatuv va bir lahzalik xarajatlarni keltirib chiqaradi. Har qanday vaziyatda agent xarajatlarni aniqlash uchun yangi harakatlarni oʻrganish yoki tezroq davom etish uchun oldingi oʻrganishdan foydalanishga qaror qiladi.

Rasmiy ravishda atrof-muhit davlatlar bilan Markov qaror jarayoni (MDP) sifatida modellashtirilgan va harakatlar . Holatga oʻtishlar nomaʼlum boʻlgani uchun uning oʻrniga ehtimollik taqsimotlari qoʻllaniladi: lahzali xarajatlar taqsimoti , kuzatish taqsimoti va oʻtish taqsimoti , siyosat esa kuzatishlar berilgan harakatlar boʻyicha shartli taqsimlash sifatida belgilanadi.

SNT bunday ilovalarda oʻrganish komponenti boʻlib xizmat qiladi.[58][59] SNT bilan birgalikda dinamik dasturlash (neyrodinamik dasturlash)[60] SNT qobiliyati tufayli transport vositalarini marshrutlash,[61] video oʻyinlar, tabiiy resurslarni boshqarish[62][63] va tibbiyot[64] kabi muammolarga qoʻllanilgan. nazorat masalalarini echish uchun sonli yaqinlashish uchun diskretizatsiya tarmogʻining zichligini kamaytirishda ham aniqlik yoʻqotilishini kamaytirish.

Oʻz-oʻzini oʻrganish[tahrir | manbasini tahrirlash]

Neyron tarmoqlarda oʻz-oʻzini oʻrganish 1982-yilda Crossbar Adaptive Array (CAA) deb nomlangan oʻz-oʻzini oʻrganishga qodir neyron tarmogʻi bilan birga kiritilgan.[65] Bu faqat bitta kirish, vaziyat s va faqat bitta chiqish, harakat (yoki xatti-harakatlar) boʻlgan tizimdir. Unda na tashqi maslahat kiritish, na atrof-muhitdan tashqi mustahkamlash kiritish mavjud. Tizim idrok va hissiyot oʻrtasidagi oʻzaro taʼsir orqali boshqariladi.[66] Xotira matritsasi W =||w(a, s)|| ni hisobga olgan holda, har bir iteratsiyada oʻzaro bogʻliqlikni oʻz-oʻzidan oʻrganish algoritmi quyidagi hisoblashni amalga oshiradi:

  In situation s perform action a;
  Receive consequence situation s';
  Compute emotion of being in consequence situation v(s');
  Update crossbar memory w'(a,s) = w(a,s) + v(s').

CAA ikkita muhitda mavjud boʻlib, biri oʻzini tutadigan xulq-atvor muhiti va ikkinchisi genetik muhit boʻlib, u erdan dastlab va faqat bir marta xulq-atvor muhitida duch keladigan vaziyatlar haqida dastlabki his-tuygʻularni oladi. Genetik muhitdan genom vektorini (turlar vektorini) olgandan soʻng, CAA kerakli va nomaqbul vaziyatlarni oʻz ichiga olgan xulq-atvor muhitida maqsadga intiladigan xatti-harakatni oʻrganadi.[67]

Neyroevolyutsiya[tahrir | manbasini tahrirlash]

Neyroevolyutsiya evolyutsion hisoblash yordamida neyron tarmoq topologiyalari va ogʻirliklarini yaratishi mumkin. Neyroevolyutsiyaning afzalliklaridan biri shundaki, u „oʻlik nuqtalar“ ga tushib qolishga kamroq moyil boʻlishi mumkin.

Stokastik neyron tarmogʻi[tahrir | manbasini tahrirlash]

Sherrington-Kirkpatrik modellaridan kelib chiqqan stoxastik neyron tarmoqlar tarmoqqa tasodifiy oʻzgarishlar kiritish yoki tarmoqning sunʼiy neyronlariga stokastik uzatish funksiyalarini, berish yoki ularga stokastik ogʻirliklar berish orqali qurilgan sunʼiy neyron tarmoq turidir.Bu ularni optimallashtirish muammolari uchun foydali vositalarga aylantiradi, chunki tasodifiy tebranishlar tarmoqni mahalliy minimaldan qochishga yordam beradi.[68]

Boshqa[tahrir | manbasini tahrirlash]

Evolyutsion usullar,[69] gen ifodasini dasturlash,[70] simulyatsiya qilingan tavlanish,[71] kutish-maksimizatsiya, parametrik boʻlmagan usullar va zarrachalar toʻdasini optimallashtirish[72] boshqa oʻrganish algoritmlaridir. Konvergent rekursiya — serebellar model artikulyatsiya boshqaruvchisi (CMAC) neyron tarmoqlarini oʻrganish algoritmi.[73][74]

Tartiblar[tahrir | manbasini tahrirlash]

Oʻrganishning ikkita usuli mavjud: stokastik va ommaviy. Stokastik oʻrganishda har bir kiritish vazNTi sozlashni yaratadi. Toʻplamda oʻrganish ogʻirliklari partiya boʻyicha xatolar toʻplanib, kirishlar partiyasi asosida oʻrnatiladi. Biroq, toʻplamli oʻrganish odatda mahalliy minimal darajaga tezroq va barqaror pasayish imkonini beradi, chunki har bir yangilash partiyaning oʻrtacha xatosi yoʻnalishi boʻyicha amalga oshiriladi. Umumiy kelishuv „mini-partiyalar“ dan, har bir partiyadagi namunalar bilan butun maʼlumotlar toʻplamidan stokastik tarzda tanlangan kichik partiyalardan foydalanishdir.

Turlari[tahrir | manbasini tahrirlash]

SNT koʻplab sohalarda eng ilgʻor texnologiyalarning keng oilasiga aylandi. Eng oddiy turlar bir yoki bir nechta statik komponentlarga ega. Jumladan birliklar soni, qatlamlar soni, birlik ogʻirliklari va topologiya.Dinamik turlar ulardan bir yoki bir nechtasini oʻrganish orqali rivojlanishiga imkon beradi. Ikkinchisi ancha murakkab, ammo oʻrganish muddatlarini qisqartirishi va yaxshi natijalar berishi mumkin. Baʼzi turlari faqat apparatda ishlaydi, boshqalari esa sof dasturiy taʼminot boʻlib, umumiy maqsadli kompyuterlarda ishlaydi.

Baʼzi asosiy yutuqlarga quyidagilar kiradi: vizual va boshqa ikki oʻlchovli maʼlumotlarni qayta ishlashda ayniqsa muvaffaqiyatli boʻlgan konvolyutsion neyron tarmoqlari.[75][76]Qisqa muddatli uzoq muddatli xotira yoʻqolib borayotgan gradient muammosidan qochadi[77]va katta lugʻatli nutqni aniqlashga yordam beruvchi past va yuqori chastotali komponentlar aralashmasiga ega boʻlgan signallarni boshqara oladi,[78][79] matndan to-nutq sintezi,[80][78]Raqobatbardosh tarmoqlar, masalan, bir nechta tarmoqlar (turli xil tuzilishdagi) oʻyinda gʻalaba qozonish[81]yoki kiritilgan maʼlumotlarning haqiqiyligi haqida raqibni aldash kabi vazifalarda bir-biri bilan raqobatlashadigan generativ raqib tarmoqlari.[82]

Tarmoq dizayni[tahrir | manbasini tahrirlash]

Neyron arxitektura qidiruvi (NAS) SNT dizaynini avtomatlashtirish uchun mashinani oʻrganishdan foydalanadi. Asosiy qidiruv algoritmi nomzod modelini taklif qilish, uni maʼlumotlar toʻplamiga nisbatan baholash va natijalardan NAS tarmogʻini oʻrgatish uchun fikr-mulohaza sifatida foydalanishdir.[83] Mavjud tizimlar orasida AutoML va AutoKeras mavjud.[84]

Dizayn masalalari tarmoq qatlamlarining soni, turi va ulanishini, shuningdek, har birining oʻlchamini va ulanish turini (toʻliq, birlashma,...).

Giperparametrlar, shuningdek, dizayNTing bir qismi sifatida aniqlanishi kerak(ular oʻrganilmagan), har bir qatlamda qancha neyron borligi, oʻrganish tezligi, qadam, qadam, chuqurlik, qabul qiluvchi maydon va toʻldirish (CNT uchun) va hokazo.

Foydalanish[tahrir | manbasini tahrirlash]

Sunʼiy neyron tarmoqlardan foydalanish ularning xususiyatlarini tushunishni talab qiladi.

  • Modelni tanlash: Bu maʼlumotlar taqdimoti va ilovaga bogʻliq. Haddan tashqari murakkab modellar sekin oʻrganishdir.
  • Oʻrganish algoritmi: Oʻrganish algoritmlari oʻrtasida koʻplab kelishuvlar mavjud. Deyarli har qanday algoritm maʼlum bir maʼlumotlar toʻplamini oʻqitish uchun toʻgʻri giperparametrlar bilan yaxshi ishlaydi. Biroq, koʻrinmas maʼlumotlar boʻyicha trening algoritmini tanlash va sozlash muhim tajribani talab qiladi.
  • Barqarorlik: Agar model, xarajat funktsiyasi va oʻrganish algoritmi toʻgʻri tanlangan boʻlsa, natijada SNT mustahkam boʻlishi mumkin.

SNT imkoniyatlari quyidagi keng toifalarga kiradi: 

  • Funktsiyani yaqinlashtirish yoki regressiya tahlili, jumladan, vaqt seriyasini bashorat qilish, fitnesga yaqinlashtirish va modellashtirish.
  • Tasniflash, shu jumladan naqsh va ketma-ketlikni aniqlash, yangilikni aniqlash va ketma-ket qaror qabul qilish.[85]
  • Maʼlumotlarni qayta ishlash, jumladan, filtrlash, klasterlash, koʻr manbalarni ajratish va siqish.
  • Robototexnika, shu jumladan boshqarish manipulyatorlari va protezlari.

Ilovalar[tahrir | manbasini tahrirlash]

Qoʻllash sohalariga tizimni identifikatsiyalash va boshqarish (avtomobilni boshqarish, traektoriyani bashorat qilish,[86] jarayoNTi boshqarish, tabiiy resurslarni boshqarish), kvant kimyosi,[87]umumiy oʻyin oʻynash,[88]naqshni aniqlash (radar tizimlari, yuzni identifikatsiyalash, signal tasnifi,[89]3D rekonstruksiya,[90]obyektni aniqlash va boshqalar), sensor maʼlumotlarini tahlil qilish,[91]ketma-ketlikni aniqlash (imo-ishora, nutq, qoʻlda yozilgan va bosilgan matNTi aniqlash[92]), tibbiy diagnostika, moliya[93](masalan, avtomatlashtirilgan savdo tizimlari), maʼlumotlarni qidirish, vizualizatsiya, mashina tarjimasi,ijtimoiy tarmoqlarni filtrlash va elektron pochta spamlarini filtrlash.SNTlar bir nechta saraton turlarini tashxislash uchun.[94][95]Faqat hujayra shakli haqidagi maʼlumotlardan foydalangan holda yuqori invaziv saraton hujayralarini kamroq invaziv chiziqlardan ajratish uchun ishlatilgan.[96][97]

SNT tabiiy ofatlarga duchor boʻlgan infratuzilmalarning ishonchliligini tahlil qilishni tezlashtirish uchun[98][99] va poydevor qoʻyishlarini bashorat qilish uchun ishlatilgan.[100]SNT geofanda qora quti modellarini yaratish uchun ham ishlatilgan: gidrologiya,[101][102]okeanlarni modellashtirish va qirgʻoq muhandisligi,[103][104]va geomorfologiya.[105] SNTlar kiberxavfsizlikda qonuniy faoliyat va zararli harakatlar oʻrtasidagi farqni aniqlash maqsadida ishlatilgan. Masalan, mashinani oʻrganish Android zararli dasturlarini tasniflash,[106]tahdid qiluvchi shaxslarga tegishli domenlarni aniqlash va xavfsizlikka xavf tugʻdiruvchi URL manzillarni aniqlash uchun ishlatilgan.[107] Penetratsion testlar, botnetlar,[108] kredit kartalari boʻyicha firibgarlik[109].

SNT fizikada qisman differensial tenglamalarni yechish va koʻp jismli ochiq kvant tizimlarining xususiyatlarini simulyatsiya[110] uchun vosita sifatida[111][112].[113][114][115][116] Miya tadqiqotida SNTlar individual neyronlarning qisqa muddatli xatti-harakatlarini oʻrgandilar,[117] neyron zanjirining dinamikasi individual neyronlar oʻrtasidagi oʻzaro taʼsirlardan va xatti-harakatlarning toʻliq quyi tizimlarni ifodalovchi mavhum neyron modullaridan qanday kelib chiqishi mumkinligidan kelib chiqadi.

Nazariy xususiyatlar[tahrir | manbasini tahrirlash]

Hisoblash kuchi[tahrir | manbasini tahrirlash]

Koʻp qatlamli perseptron universal yaqinlashish teoremasi bilan tasdiqlangan universal funksiya yaqinlashtiruvchisi hisoblanadi. Biroq, talab qilinadigan neyronlar soni, tarmoq topologiyasi, ogʻirliklar va oʻrganish parametrlari boʻyicha isbot konstruktiv emas.

Ratsional qiymatli ogʻirliklarga ega oʻziga xos takrorlanuvchi arxitektura (toʻliq aniqlikdagi haqiqiy sonli ogʻirliklardan farqli oʻlaroq). Cheklangan miqdordagi neyronlar va standart chiziqli ulanishlardan foydalangan holda universal Tyuring mashinasining kuchiga ega[118]. Bundan tashqari, ogʻirliklar uchun irratsional qiymatlardan foydalanish super-Tyuring kuchiga ega boʻlgan mashinaga olib keladi.[119]

Imkoniyat[tahrir | manbasini tahrirlash]

Modelning „imkoniyat“ xususiyati uning har qanday berilgan funksiyani modellashtirish qobiliyatiga mos keladi. Axborot sigʻimi va VC oʻlchami. PerseptroNTing axborot sigʻimi ser Devid Makkeyning Tomas Kover ishini jamlagan kitobida[120] qizgʻin muhokama qilinadi.[121] Standart neyronlar tarmogʻining sigʻimi (konvolyutsion emas) neyroNTi elektr elementi sifatida tushunishdan kelib chiqadigan toʻrtta qoida[122] bilan olinishi mumkin. Axborot sigʻimi kirish sifatida har qanday maʼlumot berilgan tarmoq tomonidan modellanadigan funktsiyalarni qamrab oladi. Ikkinchi tushuncha — VC oʻlchami. VC Dimension oʻlchov nazariyasi tamoyillaridan foydalanadi va eng yaxshi sharoitlarda maksimal quvvatni topadi. Bu maʼlum bir shaklda kiritilgan maʼlumotlardir.[120] da taʼkidlanganidek, ixtiyoriy kiritishlar uchun VC oʻlchami PerceptroNTing axborot sigʻimining yarmini tashkil qiladi. Ixtiyoriy nuqtalar uchun VC oʻlchami baʼzan Xotira hajmi deb ataladi.[123]

Konvergentsiya[tahrir | manbasini tahrirlash]

Modellar doimiy ravishda bitta yechimga yaqinlashmasligi mumkin, birinchidan, xarajat funktsiyasi va modelga qarab mahalliy minimallar mavjud boʻlishi mumkin. Ikkinchidan, qoʻllaniladigan optimallashtirish usuli har qanday mahalliy minimumdan uzoqda boshlanganda birlashishni kafolatlamasligi mumkin.

Yana bir taʼkidlab oʻtish kerak boʻlgan masala shundaki, mashgʻulot birlashmani notoʻgʻri yoʻnalishga olib kelishi mumkin boʻlgan Egar nuqtasini kesib oʻtishi mumkin.

Tarmoqning kengligi cheksizlikka yaqinlashganda, SNT oʻzining birinchi tartibidagi Teylorning trening davomida kengayishi bilan yaxshi tavsiflanadi va shuning uchun affin modellarning konvergentsiya xatti-harakatlarini meros qilib oladi.[124][125] Yana bir misol, parametrlar kichik boʻlsa, SNT koʻpincha pastdan yuqori chastotalarga qadar maqsadli funktsiyalarga mos kelishi kuzatiladi. Ushbu xatti-harakatlar neyron tarmoqlarning spektral moyilligi yoki chastota printsipi deb ataladi.[126][127][128][129] Bu hodisa Yakobi usuli kabi baʼzi yaxshi oʻrganilgan iterativ raqamli sxemalarning xatti-harakatlariga qarama-qarshidir. Chuqurroq neyron tarmoqlar past chastotali funktsiyalarga nisbatan koʻproq moyil boʻlishi kuzatilgan.[130]

Umumlashtirish va statistika[tahrir | manbasini tahrirlash]

Maqsadlari koʻrinmas misollarni yaxshi umumlashtiradigan tizim yaratish boʻlgan ilovalar ortiqcha oʻqitish imkoniyatiga duch kelishadi. Ikkita yondashuv ortiqcha mashgʻulotlarni hal qiladi. Birinchisi, ortiqcha treninglar mavjudligini tekshirish va umumlashtirish xatosini minimallashtirish uchun giperparametrlarni tanlash uchun oʻzaro tekshirish va shunga oʻxshash usullarni qoʻllashdir.

Bu kontseptsiya probabilistik (Bayesian) doirada paydo boʻladi, bu erda tartibga solish oddiyroq modellarga nisbatan kattaroq oldingi ehtimollikni tanlash orqali amalga oshirilishi mumkin.Bundan tashqari, statistik oʻrganish nazariyasida, maqsad ikkitadan ortiq miqdorni minimallashtirishdan iborat: „ampirik risk“ va „tarkibiy xavf“, bu taxminan oʻquv majmuasi ustidagi xatoga va koʻrinmas maʼlumotlarning haddan tashqari moslashuvi tufayli taxmin qilingan xatoga mos keladi.

Oʻrtacha kvadrat xatolik (MSE) xarajat funktsiyasidan foydalanadigan nazorat qilinadigan neyron tarmoqlari oʻqitilgan modelning ishonchliligini aniqlash uchun rasmiy statistik usullardan foydalanishi mumkin. Tasdiqlash toʻplamidagi MSE farqni baholash sifatida ishlatilishi mumkin. Shu tarzda oʻtkazilgan ishonch tahlili, agar chiqish ehtimoli taqsimoti bir xil boʻlsa va tarmoq oʻzgartirilmasa, statistik jihatdan haqiqiy hisoblanadi.

Kategorik maqsadli oʻzgaruvchilar uchun neyron tarmogʻining chiqish qatlamiga (yoki komponentlarga asoslangan tarmoqdagi softmax komponentiga) softmax faollashtirish funksiyasini, logistik funktsiyani umumlashtirishni belgilash orqali natijalarni posterior ehtimolliklar sifatida talqin qilish mumkin. Bu tasniflashda foydalidir, chunki u tasniflashda aniqlik oʻlchovini beradi.

Softmax faollashtirish funksiyasi:

Tanqid[tahrir | manbasini tahrirlash]

Trening[tahrir | manbasini tahrirlash]

Neyron tarmoqlarning, xususan, robototexnika sohasidagi keng tarqalgan tanqidi shundaki, ular haqiqiy hayotda ishlash uchun juda koʻp tayyorgarlikni talab qiladi.  Potensial yechimlar misol boʻyicha tarmoq ulanishlarini oʻzgartirishda unchalik katta qadamlar qoʻymaydigan raqamli optimallashtirish algoritmidan foydalangan holda tasodifiy aralashtirib yuboriladigan oʻquv misollarini oʻz ichiga oladi, misollarni mini-toʻplamlar deb ataluvchi guruhlarda guruhlash va/yoki rekursiv eng kamini kiritish. CMAC uchun kvadratlar algoritmi.[73]

Nazariya[tahrir | manbasini tahrirlash]

Asosiy eʼtiroz shundaki, SNT neyronal funktsiyani etarli darajada aks ettirmaydi. Biologik neyron tarmoqlarda bunday mexanizm mavjud boʻlmasa-da, orqaga tarqalish juda muhim qadamdir.[131] Haqiqiy neyronlar tomonidan maʼlumot qanday kodlanganligi nomaʼlum. Sensor neyronlari sensor faollashishi bilan harakat potentsiallarini tez-tez yondiradi va ular bilan bogʻlangan motor neyronlari harakat potentsiallarini tez-tez qabul qilganda mushak hujayralari kuchliroq tortiladi.[132]

SNTning asosiy daʼvosi shundaki, ular axborotni qayta ishlashning yangi va kuchli umumiy tamoyillarini oʻz ichiga oladi. Bu tamoyillar notoʻgʻri taʼriflangan. Koʻpincha ular tarmoqning oʻzidan paydo boʻlgan deb daʼvo qilinadi.1997-yilda Aleksandr Dyudnining taʼkidlashicha, natijada sunʼiy neyron tarmoqlari „hech narsaning oʻrniga“ sifatga ega boʻlib, u oʻziga xos dangasalik aurasini va bu hisoblash tizimlari qanchalik yaxshi ekanligiga qiziquvchanlikning yoʻqligini beradi. Yechimlar xuddi sehr bilan topiladi; va hech kim hech narsani oʻrganmaganga oʻxshaydi"[133] Dyudniga javoblardan biri shundaki, neyron tarmoqlar koʻplab murakkab va xilma-xil vazifalarni bajaradi: avtonom uchuvchi samolyot[134] dan kredit kartalaridagi firibgarlikni aniqlashgacha, Go oʻyinini oʻzlashtirishgacha.

Texnologiya yozuvchisi Rojer Bridgman shunday dedi:

Biologik miyalar miya anatomiyasi tomonidan xabar qilinganidek, sayoz va chuqur zanjirlardan foydalanadi[135], turli xil oʻzgarmaslikni namoyish etadi. Weng[136] miya oʻz-oʻzidan simlarni asosan signal statistikasiga koʻra bogʻlaydi va shuning uchun ketma-ket kaskad barcha asosiy statistik bogʻliqliklarni ushlay olmaydi.

Uskuna[tahrir | manbasini tahrirlash]

Katta va samarali neyron tarmoqlar katta hisoblash resurslarini talab qiladi.[137] Miya neyronlar grafigi orqali signallarni qayta ishlash vazifasiga moslashtirilgan apparatga ega boʻlsa-da, hatto fon Neyman arxitekturasida soddalashtirilgan neyroNTi taqlid qilish ham katta hajmdagi xotira va xotirani isteʼmol qilishi mumkin. Bundan tashqari, dizayner koʻpincha signallarni ushbu ulanishlar va ular bilan bogʻliq neyronlar orqali uzatishi kerak — Bu juda katta CPU quvvati va vaqtini talab qiladi.

Shmidxuberning taʼkidlashicha, 21-asrda neyron tarmoqlarning qayta tiklanishi asosan apparat taʼminotidagi yutuqlar bilan bogʻliq: 1991-yildan 2015-yilgacha hisoblash quvvati, ayniqsa GPGPUlar (GPU’lar) tomonidan etkazib berilganidek, taxminan bir million barobar oshdi. oldingidan bir necha qatlam chuqurroq boʻlgan oʻqitish tarmoqlari uchun standart orqaga tarqalish algoritmi.[9] FPGA va GPU kabi tezlatgichlardan foydalanish mashgʻulotlar vaqtini bir necha oydan kungacha qisqartirishi mumkin.

Neyromorfik muhandislik yoki jismoniy neyron tarmoq kontaktlarning zanglashiga olib keladigan neyron tarmoqlarini toʻgʻridan-toʻgʻri amalga oshirish uchun von-NeumSNT boʻlmagan chiplarni qurish orqali apparat qiyinchiliklarini toʻgʻridan-toʻgʻri hal qiladi. Neyron tarmoqlarni qayta ishlash uchun optimallashtirilgan yana bir chip turi Tensor Processing Unit yoki TPU deb ataladi.[138]

Amaliy qarama-qarshi misollar[tahrir | manbasini tahrirlash]

SNT tomonidan oʻrganilgan narsalarni tahlil qilish biologik neyron tarmoq tomonidan oʻrganilgan narsalarni tahlil qilishdan koʻra osonroqdir. Bundan tashqari, neyron tarmoqlar uchun oʻrganish algoritmlarini oʻrganish bilan shugʻullanadigan tadqiqotchilar asta-sekin oʻquv mashinasining muvaffaqiyatli boʻlishiga imkon beruvchi umumiy tamoyillarni ochib berishadi. Misol uchun, mahalliy va mahalliy boʻlmagan oʻrganish va sayoz va chuqur arxitektura.[139]

Gibrid yondashuvlar[tahrir | manbasini tahrirlash]

Gibrid modellar tarafdorlari (neyron tarmoqlari va ramziy yondashuvlarni birlashtirgan holda) bunday aralash inson ongining mexanizmlarini yaxshiroq qamrab olishini daʼvo qilmoqda.[140][141]

Galereya[tahrir | manbasini tahrirlash]

Bibliografiya[tahrir | manbasini tahrirlash]

Manbalar[tahrir | manbasini tahrirlash]

  1. McCulloch A Logical Calculus of Ideas Immanent in Nervous Activity, 1943. — s. 115–133. DOI:10.1007/BF02478259. 
  2. Hebb, DonaldThe Organization of Behavior. New York: Wiley, 1949.. ISBN 978-1-135-63190-1. 
  3. Farley Simulation of Self-Organizing Systems by Digital Computer, 1954. — s. 76–84. DOI:10.1109/TIT.1954.1057468. 
  4. Haykin (2008) Neural Networks and Learning Machines, 3rd edition
  5. Rosenblatt „The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain“, 1958. — s. 386–408. DOI:10.1037/h0042519. 
  6. Werbos, P.J.Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences, 1975.. 
  7. Rosenblatt The Perceptron—a perceiving and recognizing automaton. Cornell Aeronautical Laboratory, 1957.. 
  8. Olazaran A Sociological Study of the Official History of the Perceptrons Controversy, 1996. — s. 611–659. DOI:10.1177/030631296026003005. 
  9. 9,0 9,1 9,2 Schmidhuber Deep Learning in Neural Networks: An Overview, 2015. — s. 85–117. DOI:10.1016/j.neunet.2014.09.003. 
  10. Ivakhnenko, A. G.Cybernetic Predicting Devices. CCM Information Corporation, 1973.. 
  11. Ivakhnenko, A. G.Cybernetics and forecasting techniques. American Elsevier Pub. Co., 1967.. 
  12. 12,0 12,1 Schmidhuber Deep Learning, 2015. — s. 85–117. DOI:10.4249/scholarpedia.32832. 
  13. Dreyfus Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure, 1-sentabr 1990-yil. — s. 926–928. DOI:10.2514/3.25422. 
  14. Mizutani On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application. IEEE, 2000. — s. 167–172 vol.2. DOI:10.1109/ijcnn.2000.857892. ISBN 0-7695-0619-4. 
  15. Kelley „Gradient theory of optimal flight paths“, 1960. — s. 947–954. DOI:10.2514/8.5282. 
  16. "Proceedings of the Harvard Univ. Symposium on digital computers and their applications". April 1961. 
  17. Minsky, MarvinPerceptrons: An Introduction to Computational Geometry. MIT Press, 1969.. ISBN 978-0-262-63022-1. 
  18. Linnainmaa Taylor expansion of the accumulated rounding error, 1976. — s. 146–160. DOI:10.1007/bf01931367. 
  19. Dreyfus The computational solution of optimal control problems with time lag, 1973. — s. 383–385. DOI:10.1109/tac.1973.1100330. 
  20. Werbos, PaulApplications of advances in nonlinear sensitivity analysis“,. System modeling and optimization. Springer, 1982. — 762–770 bet. 
  21. Mead, Carver A.Analog VLSI Implementation of Neural Systems, The Kluwer International Series in Engineering and Computer Science. Norwell, MA: Kluwer Academic Publishers, 8-may 1989-yil.. DOI:10.1007/978-1-4613-1639-8. ISBN 978-1-4613-1639-8. 
  22. David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams, "Learning representations by back-propagating errors , " Natureʼ, 323, pages 533-536 1986.
  23. Qian, Ning, and Terrence J. Sejnowski. „Predicting the secondary structure of globular proteins using neural network models.“ Journal of molecular biology 202, no. 4 (1988): 865-884.
  24. Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen, and Steffen B. Petersen. „Protein secondary structure and homology by neural networks The α-helices in rhodopsin.“ FEBS letters 241, (1988): 223-228
  25. Rost, Burkhard, and Chris Sander. „Prediction of protein secondary structure at better than 70 % accuracy.“ Journal of molecular biology 232, no. 2 (1993): 584-599.
  26. J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively, " Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I, pp. 576-581, June 1992.
  27. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images, " Proc. 4th International Conf. Computer Vision, Berlin, Germany, pp. 121-128, May 1993.
  28. J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation using the Cresceptron, " International Journal of Computer Vision, vol. 25, no. 2, pp. 105-139, Nov. 1997.
  29. J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression, " Neural Computation, 4, pp. 234-242, 1992.
  30. Domingos, PedroThe Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. chapter 4: Basic Books, 22-sentabr 2015-yil.. ISBN 978-0465065707. 
  31. Smolensky, P. „Information processing in dynamical systems: Foundations of harmony theory.“,Parallel Distributed Processing: Explorations in the Microstructure of Cognition D. E. Rumelhart: , 1986. — 194–281 bet. ISBN 978-0-262-68053-0. 
  32. Ng, Andrew; Dean, Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG]. 
  33. Ian Goodfellow and Yoshua Bengio and Aaron CourvilleDeep Learning. MIT Press, 2016.. 
  34. Cireşan Deep, Big, Simple Neural Nets for Handwritten Digit Recognition, 21-sentabr 2010-yil. — s. 3207–3220. DOI:10.1162/neco_a_00052. 
  35. 2012 Kurzweil AI Interview Arxivlandi 31 August 2018 Wayback Machine saytida. with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009-2012
  36. 36,0 36,1 Graves „A Novel Connectionist System for Improved Unconstrained Handwriting Recognition“, 2009. — s. 855–868. DOI:10.1109/tpami.2008.137. 
  37. 37,0 37,1 Graves „Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks“. Curran Associates, Inc, 2009. — s. 545–552. 
  38. Graves A Novel Connectionist System for Unconstrained Handwriting Recognition, may 2009. — s. 855–868. DOI:10.1109/tpami.2008.137. 
  39. Ciresan, Dan. Multi-column deep neural networks for image classification, June 2012. — 3642–3649 bet. DOI:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. 
  40. 40,0 40,1 Zell, Andreas „chapter 5.2“,. Simulation neuronaler Netze, 1st (de), Addison-Wesley, 2003.. ISBN 978-3-89319-554-1. OCLC 249017987. 
  41. Artificial intelligence, 3rd, Addison-Wesley Pub. Co, 1992.. ISBN 0-201-53377-4. 
  42. Abbod Application of Artificial Intelligence to the Management of Urological Cancer, 2007. — s. 1150–1156. DOI:10.1016/j.juro.2007.05.122. 
  43. DAWSON An artificial neural network approach to rainfall-runoff modelling, 1998. — s. 47–66. DOI:10.1080/02626669809492102. 
  44. „The Machine Learning Dictionary“. www.cse.unsw.edu.au. 26-avgust 2018-yilda asl nusxadan arxivlandi. Qaraldi: 4-noyabr 2009-yil.
  45. Ciresan „Flexible, High Performance Convolutional Neural Networks for Image Classification“, 2011. — s. 1237–1242. 
  46. Zell, Andreas. Simulation Neuronaler Netze, 1st (de), Addison-Wesley, 1994. — 73 bet. ISBN 3-89319-554-8. 
  47. Miljanovic „Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction“, february–march 2012.. 
  48. Lau, Suki „A Walkthrough of Convolutional Neural Network – Hyperparameter Tuning“. Medium (10-iyul 2017-yil). Qaraldi: 23-avgust 2019-yil.
  49. Kelleher, John D. „7-8“,Fundamentals of machine learning for predictive data analytics : algorithms, worked examples, and case studies, Brian Mac Namee, Aoife D'Arcy, 2, Cambridge, Massachusetts, 2020.. ISBN 978-0-262-36110-1. OCLC 1162184998. 
  50. Wei, Jiakai (2019-04-26). "Forget the Learning Rate, Decay Loss". arXiv:1905.00094 [cs.LG]. 
  51. Li, Y.. The Improved Training Algorithm of Back Propagation Neural Network with Self-adaptive Learning Rate, 1-iyun 2009-yil. — 73–76 bet. DOI:10.1109/CINC.2009.111. ISBN 978-0-7695-3645-3. 
  52. Huang Extreme learning machine: theory and applications, 2006. — s. 489–501. DOI:10.1016/j.neucom.2005.12.126. 
  53. Widrow The no-prop algorithm: A new learning algorithm for multilayer neural networks, 2013. — s. 182–188. DOI:10.1016/j.neunet.2012.09.020. 
  54. Ollivier, Yann; Charpiat, Guillaume (2015). "Training recurrent networks without backtracking". arXiv:1507.07680 [cs.NE]. 
  55. ESANN. 2009
  56. 56,0 56,1 Hinton „A Practical Guide to Training Restricted Boltzmann Machines“, 2010.. 
  57. Ojha Metaheuristic design of feedforward neural networks: A review of two decades of research, 1-aprel 2017-yil. — s. 97–116. DOI:10.1016/j.engappai.2017.01.013. 
  58. Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE. doi:10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1. https://archive.org/details/ijcnn91seattlein01ieee. 
  59. Hoskins „Process control via artificial neural networks and reinforcement learning“, 1992. — s. 241–251. DOI:10.1016/0098-1354(92)80045-B. 
  60. Bertsekas, D.P.Neuro-dynamic programming. Athena Scientific, 1996. — 512 bet. ISBN 978-1-886529-10-6. 
  61. Secomandi Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands, 2000. — s. 1201–1225. DOI:10.1016/S0305-0548(99)00146-X. 
  62. de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). "Neuro-dynamic programming for the efficient management of reservoir networks". Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN 0-86740-525-2. 
  63. Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Genetic algorithms and neuro-dynamic programming: application to water supply networks". Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. La Jolla, California, USA: IEEE. doi:10.1109/CEC.2000.870269. ISBN 0-7803-6375-2. 
  64. Deng, Geng. Neuro-dynamic programming for fractionated radiotherapy planning, Springer Optimization and Its Applications, 2008. — 47–70 bet. DOI:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5. 
  65. Bozinovski, S. (1982). „A self-learning system using secondary reinforcement“. In R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397-402. ISBN 978-0-444-86488-8.
  66. Bozinovski, S. (2014) „Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981.“ Procedia Computer Science p. 255-263
  67. Bozinovski Self-learning agents: A connectionist theory of emotion based on crossbar value judgment, 2001. — s. 637–667. DOI:10.1080/01969720118145. 
  68. Turchetti, Claudio (2004), Stochastic Models of Neural Networks, Frontiers in artificial intelligence and applications: Knowledge-based intelligent engineering systems, 102, IOS Press, ISBN 9781586033880 
  69. de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). "A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management". in Pavel Zítek. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16. 16th IFAC World Congress. Prague, Czech Republic: IFAC. doi:10.3182/20050703-6-CZ-1902.02172. ISBN 978-3-902661-75-3. http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Papers/Paper4269.html. Qaraldi: 30 December 2011. 
  70. Ferreira, C. „Designing Neural Networks Using Gene Expression Programming“,Applied Soft Computing Technologies: The Challenge of Complexity A. Abraham: . Springer-Verlag, 2006. — 517–536 bet. 
  71. Da, Y.; Xiurun, G. (July 2005). "An improved PSO-based ANN with simulated annealing technique". in T. Villmann. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Elsevier. doi:10.1016/j.neucom.2004.07.002. Archived from the original on 25 April 2012. https://web.archive.org/web/20120425233611/http://www.dice.ucl.ac.be/esann/proceedings/electronicproceedings.htm. Qaraldi: 30 December 2011. 
  72. Wu, J.; Chen, E. (May 2009). "A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network". in Wang, H.. 6th International Symposium on Neural Networks, ISNN 2009. Springer. doi:10.1007/978-3-642-01513-7_6. ISBN 978-3-642-01215-0. Archived from the original on 31 December 2014. https://web.archive.org/web/20141231221755/http://www2.mae.cuhk.edu.hk/~isnn2009/. Qaraldi: 1 January 2012. 
  73. 73,0 73,1 Ting Qin, et al. „A learning algorithm of CMAC based on RLS.“ Neural Processing Letters 19.1 (2004): 49-61.
  74. Ting Qin, et al. „Continuous CMAC-QRLS and its systolic array.“ Neural Processing Letters 22.1 (2005): 1-16.
  75. LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition, " Neural Computation, 1, pp. 541-551, 1989.
  76. Yann LeCun (2016). Slides on Deep Learning Online
  77. Hochreiter Long Short-Term Memory, 1-noyabr 1997-yil. — s. 1735–1780. DOI:10.1162/neco.1997.9.8.1735. 
  78. 78,0 78,1 Sak, Hasim; Senior, Andrew; Beaufays, Francoise „Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling“ (2014). 24-aprel 2018-yilda asl nusxadan arxivlandi.
  79. Li, Xiangang; Wu, Xihong (15 October 2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL]. 
  80. Fan „TTS synthesis with bidirectional LSTM based Recurrent Neural Networks“, 2014. — s. 1964–1968. 
  81. Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent et al. (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI]. 
  82. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks". Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680. https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf. 
  83. Zoph, Barret; Le, Quoc V. (4 November 2016). "Neural Architecture Search with Reinforcement Learning". arXiv:1611.01578 [cs.LG]. 
  84. „AutoKeras“. autokeras.com. Qaraldi: 21-avgust 2019-yil.
  85. Turek, Fred D. „Introduction to Neural Net Machine Vision“, mart 2007.. 
  86. Zissis „A cloud based architecture capable of perceiving and predicting multiple vessel behaviour“, oktabr 2015. — s. 652–661. DOI:10.1016/j.asoc.2015.07.002. 
  87. Roman M. Balabin Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies, 2009. — s. 074104. DOI:10.1063/1.3206326. 
  88. Silver „Mastering the game of Go with deep neural networks and tree search“, 2016. — s. 484–9. DOI:10.1038/nature16961. 
  89. Sengupta Lung sound classification using cepstral-based statistical features, avgust 2016. — s. 118–129. DOI:10.1016/j.compbiomed.2016.05.013. 
  90. Choy, Christopher B., et al. „3d-r2n2: A unified approach for single and multi-view 3d object reconstruction.“ European conference on computer vision. Springer, Cham, 2016.
  91. Gessler „Sensor for food analysis applying impedance spectroscopy and artificial neural networks“, avgust 2021. — s. 8–12. 
  92. Maitra „CNN based common approach to handwritten character recognition of multiple scripts“, avgust 2015. — s. 1021–1025. DOI:10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. 
  93. French The time traveller's CAPM, 2016. — s. 81–96. DOI:10.1080/10293523.2016.1255469. 
  94. Ganesan Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data, 2010. — s. 81–97. DOI:10.5120/476-783. 
  95. Bottaci „Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions“. The Lancet, 1997. — s. 469–72. DOI:10.1016/S0140-6736(96)11196-X. 
  96. Alizadeh „Measuring systematic changes in invasive cancer cell shape using Zernike moments“, 2016. — s. 1183–1193. DOI:10.1039/C6IB00100A. 
  97. Lyons Changes in cell shape are correlated with metastatic potential in murine, 2016. — s. 289–299. DOI:10.1242/bio.013409. 
  98. Nabian Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks, 28-avgust 2017-yil. — s. 443–458. DOI:10.1111/mice.12359. 
  99. Nabian „Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates“, 2018.. 
  100. Díaz Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock, sentabr 2018. — s. 1414–1422. DOI:10.1016/j.sandf.2018.08.001. 
  101. Govindaraju „Artificial Neural Networks in Hydrology. I: Preliminary Concepts“, 1-aprel 2000-yil. — s. 115–123. DOI:10.1061/(ASCE)1084-0699(2000)5:2(115). 
  102. Govindaraju „Artificial Neural Networks in Hydrology. II: Hydrologic Applications“, 1-aprel 2000-yil. — s. 124–137. DOI:10.1061/(ASCE)1084-0699(2000)5:2(124). 
  103. Peres Significant wave height record extension by neural networks and reanalysis wind data, 1-oktabr 2015-yil. — s. 128–140. DOI:10.1016/j.ocemod.2015.08.002. 
  104. Dwarakish „Review on Applications of Neural Network in Coastal Engineering“, 2013. — s. 324–331. 
  105. Ermini Artificial Neural Networks applied to landslide susceptibility assessment. Geomorphological hazard and human impact in mountain environments, 1-mart 2005-yil. — s. 327–343. DOI:10.1016/j.geomorph.2004.09.025. 
  106. Nix Classification of Android apps and malware using deep neural networks, may 2017. — s. 1871–1878. DOI:10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2. 
  107. „Detecting Malicious URLs“. The systems and networking group at UCSD. 14-iyul 2019-yilda asl nusxadan arxivlandi. Qaraldi: 15-fevral 2019-yil.
  108. Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska, eds., "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber Threat Intelligence, Advances in Information Security (Springer International Publishing): 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9 
  109. and Credit card fraud detection with a neural-network, yanvar 1994. — s. 621–630. DOI:10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1. 
  110. „Caltech Open-Sources AI for Solving Partial Differential Equations“ (en). InfoQ. Qaraldi: 20-yanvar 2021-yil.
  111. „AI has cracked a key mathematical puzzle for understanding our world“ (en). MIT Technology Review. Qaraldi: 19-noyabr 2020-yil.
  112. Ananthaswamy, Anil „Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before“ (en). Quanta Magazine (19-aprel 2021-yil). Qaraldi: 12-may 2021-yil.
  113. Nagy Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems, 28-iyun 2019-yil. — s. 250501. DOI:10.1103/PhysRevLett.122.250501. 
  114. Yoshioka Constructing neural stationary states for open quantum many-body systems, 28-iyun 2019-yil. — s. 214306. DOI:10.1103/PhysRevB.99.214306. 
  115. Hartmann Neural-Network Approach to Dissipative Quantum Many-Body Dynamics, 28-iyun 2019-yil. — s. 250502. DOI:10.1103/PhysRevLett.122.250502. 
  116. Vicentini Variational Neural-Network Ansatz for Steady States in Open Quantum Systems, 28-iyun 2019-yil. — s. 250503. DOI:10.1103/PhysRevLett.122.250503. 
  117. Forrest MD Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster, aprel 2015. — s. 27. DOI:10.1186/s12868-015-0162-6. 
  118. Siegelmann „Turing computability with neural nets“, 1991. — s. 77–80. DOI:10.1016/0893-9659(91)90080-F. 
  119. Balcázar Computational Power of Neural Networks: A Kolmogorov Complexity Characterization, iyul 1997. — s. 1175–1183. DOI:10.1109/18.605580. 
  120. 120,0 120,1 MacKay, David, J.C.Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.. ISBN 978-0-521-64298-9. 
  121. Cover „Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition“. IEEE, 1965. — s. 326–334. DOI:10.1109/PGEC.1965.264137. 
  122. Gerald Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data. ACM, 2019. — s. 2709–2710. DOI:10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. 
  123. „The Tensorflow Meter“.
  124. Lee Wide neural networks of any depth evolve as linear models under gradient descent, 2020. — s. 124002. DOI:10.1088/1742-5468/abc62b. 
  125. [1], Neural Tangent Kernel: Convergence and Generalization in Neural Networks.
  126. [2], Training Behavior of Deep Neural Network in Frequency Domain.
  127. [3], On the Spectral Bias of Neural Networks.
  128. [4], Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks.
  129. [5], Theory of the Frequency Principle for General Deep Neural Networks.
  130. Xu „Deep Frequency Principle Towards Understanding Why Deeper Learning Is Faster“ (en), 18-may 2021-yil. — s. 10541–10550. 
  131. Crick The recent excitement about neural networks, 1989. — s. 129–132. DOI:10.1038/337129a0. 
  132. Adrian The impulses produced by sensory nerve endings, 1926. — s. 49–72. DOI:10.1113/jphysiol.1926.sp002273. 
  133. Dewdney, A. K.Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley, 1-aprel 1997-yil. — 82 bet. ISBN 978-0-471-10806-1. 
  134. NASA — Dryden Flight Research Center — News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE. Nasa.gov. Retrieved on 20 November 2013.
  135. D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex, " Cerebral Cortex, 1, pp. 1-47, 1991.
  136. J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind, " BMI Press, ISBN 978-0-9858757-2-5, 2012.
  137. Edwards Growing pains for deep learning, 25-iyun 2015-yil. — s. 14–16. DOI:10.1145/2771283. 
  138. „Google Built Its Very Own Chips to Power Its AI Bots“, Wired.
  139. „Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0“. www.iro.umontreal.ca.
  140. Sun and Bookman (1990)
  141. Tahmasebi A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation, 2012. — s. 18–27. DOI:10.1016/j.cageo.2012.02.004.