Deep learning
|
|
Ez a szócikk vagy szakasz lektorálásra, tartalmi javításokra szorul. |
A mélytanulás (angolul deep learning, ejtsd: díp lörning) a gépi tanulás egy olyan részhalmaza, amely a mesterséges neurális hálózatok felhasználására összpontosít olyan feladatok elvégzésére, mint az osztályozás, a regresszió és a reprezentációs tanulás. A terület a biológiai idegtudományból merít ihletet, és középpontjában a mesterséges neuronok rétegekbe való halmozása és „betanítása” áll, hogy adatokat dolgozzanak fel. A „mély” jelző arra utal, hogy a hálózatban több (háromtól több százig vagy több ezerig terjedő) réteget használnak. Az alkalmazott módszerek lehetnek felügyelt, félig felügyelt vagy nem felügyelt módszerek.[1]
Néhány gyakori mély tanulási hálózati architektúra a teljesen összekapcsolt hálózatok, a mély hit-hálózatok, a rekurrens neurális hálózatok, a konvolúciós neurális hálózatok, a generatív adverzális hálózatok, a transzformátorok és a neurális sugárzási mezők. Ezeket az architektúrákat olyan területeken alkalmazták, mint a számítógépes látás, beszédfelismerés, természetes nyelvfeldolgozás, gépi fordítás, bioinformatika, gyógyszertervezés, orvosi képelemzés, klímatudomány, anyagvizsgálat és társasjátékprogramok, ahol az emberi szakértői teljesítményhez hasonló, sőt egyes esetekben azt felülmúló eredményeket produkáltak.[2][3][4]
A neurális hálózatok korai formáit a biológiai rendszerek, különösen az emberi agy információfeldolgozó és elosztott kommunikációs csomópontjai ihlették. A jelenlegi neurális hálózatoknak azonban nem célja az élőlények agyműködésének modellezése, és e célból általában alacsony minőségű modelleknek tekintik őket.[5]
Áttekintés
[szerkesztés]
A legtöbb modern mélytanulási modell többrétegű mesterséges neurális hálózatokon, például konvolúciós neurális hálózatokon és transzformátorokon alapul, bár tartalmazhatnak kijelentő formulákat vagy rétegenként szervezett látens változókat is a mély generatív modellekben, mint például a mély hiedelemhálózatok és a mély Boltzmann-gépek csomópontjai.[6]
Alapvetően a mélytanulás a gépi tanulási algoritmusok olyan osztályára utal, amelyben a bemeneti adatok fokozatosan absztraktabb és összetettebb reprezentációvá történő átalakítására réteghierarchiát használnak. Például egy képfelismerő modellben a nyers bemenet lehet egy kép (pixelek tenzoraként reprezentálva). Az első reprezentációs réteg megpróbálhatja azonosítani az alapvető alakzatokat, például vonalakat és köröket, a második réteg összeállíthatja és kódolhatja az élek elrendezését, a harmadik réteg kódolhatja az orrot és a szemeket, a negyedik réteg pedig felismerheti, hogy a kép egy arcot tartalmaz.
Fontos, hogy egy mély tanulási folyamat képes önállóan megtanulni, hogy mely jellemzőket melyik szinten kell optimálisan elhelyezni. A mélytanulást megelőzően a gépi tanulási technikák gyakran kézzel készített jellemzőmérnökséget igényeltek, hogy az adatokat az osztályozó algoritmus számára megfelelőbb reprezentációvá alakítsák át. A mélytanulási megközelítésben a jellemzőket nem kézzel alakítják ki, és a modell automatikusan felfedezi a hasznos jellemzőreprezentációkat az adatokból. Ez nem szünteti meg a kézi hangolás szükségességét; például a rétegek változó száma és a rétegméretek különböző absztrakciós fokokat biztosíthatnak.[1][7]
A „mély” szó a „deep learning”-ben a rétegek számára utal, amelyeken keresztül az adatokat átalakítják. Pontosabban a mélytanuló rendszerek jelentős kredit hozzárendelési útvonal (CAP) mélységgel rendelkeznek. A CAP a bemenetről a kimenetre történő transzformációk láncolata. A CAP-ok a bemenet és a kimenet közötti potenciálisan oksági kapcsolatokat írják le. Egy előrecsatolt neurális hálózat esetében a CAP-ok mélysége a hálózat mélysége, és a rejtett rétegek száma plusz egy (mivel a kimeneti réteg is paraméterezett). A rekurrens neurális hálózatok esetében, amelyekben egy jel többször is áthaladhat egy rétegen, a CAP mélysége potenciálisan korlátlan.[8] Nincs általánosan elfogadott mélységi küszöbérték, amely elválasztja a sekély tanulást a mély tanulástól, de a legtöbb kutató egyetért abban, hogy a mély tanulás kettőnél nagyobb CAP-mélységgel jár. A kettes mélységű CAP bizonyítottan univerzális approximátor abban az értelemben, hogy bármilyen függvényt képes utánozni.[9] Ezen túlmenően a több réteg nem növeli a hálózat függvényközelítő képességét. A mély modellek (CAP > kettő) jobb jellemzők kinyerésére képesek, mint a sekély modellek, ezért az extra rétegek segítenek a jellemzők hatékony megtanulásában.
A mélytanulási architektúrák mohó rétegenkénti módszerrel építhetők fel.[10] A mélytanulás segít ezen absztrakciók szétválasztásában és annak kiválasztásában, hogy mely jellemzők javítják a teljesítményt.[7]
A mélytanulási algoritmusok alkalmazhatók felügyelet nélküli tanulási feladatokra. Ez azért fontos előny, mert a címkézetlen adatok nagyobb mennyiségben állnak rendelkezésre, mint a címkézett adatok. A felügyelet nélküli módon képezhető mély struktúrák példái a mély hiedelemhálózatok.[7][11]
A mélytanulás kifejezést Rina Dechter vezette be a gépi tanulás közösségébe 1986-ban,[12] a mesterséges neurális hálózatokba pedig Igor Aizenberg és munkatársai 2000-ben, a Boolean-küszöbneuronokkal összefüggésben,[13][14] bár megjelenésének története ennél nyilvánvalóan bonyolultabb.[15]
Értelmezések
[szerkesztés]A mély neurális hálózatokat általában az univerzális közelítési tétel[16][17][18][19][20] vagy a valószínűségi következtetés szempontjából értelmezik.[7][8][21][22][23]
A klasszikus univerzális approximációs tétel arra vonatkozik, hogy az egyetlen véges méretű rejtett réteggel rendelkező előrecsatolt neurális hálózatok képesek-e folytonos függvények közelítésére.[16][17][18][19] Az első bizonyítást 1989-ben George Cybenko publikálta szigmoid aktiválási függvényekre,[16] majd 1991-ben Kurt Hornik általánosította többrétegű feed-forward architektúrákra.[17] A legújabb munkák azt is kimutatták, hogy az univerzális approximáció nem korlátos aktiválási függvényekre is érvényes, mint például Kunihiko Fukusima egyenesített lineáris egységére.[24][25]
A mély neurális hálózatokra vonatkozó univerzális közelítési tétel a korlátos szélességű, de a mélység növekedését megengedő hálózatok kapacitására vonatkozik. Lu és társai bebizonyították, hogy ha egy ReLU aktiválású mély neurális hálózat szélessége szigorúan nagyobb, mint a bemeneti dimenzió, akkor a hálózat bármely Lebesgue-féle integrálható függvényt képes közelíteni; ha a szélesség kisebb vagy egyenlő a bemeneti dimenzióval, akkor a mély neurális hálózat nem univerzális közelítő.
A valószínűségi értelmezés[23] a gépi tanulás területéről származik. Jellemzői a következtetés,[6][7][8][11][22][23] valamint a képzés és a tesztelés optimalizálási fogalmai, amelyek az illesztéshez, illetve az általánosításhoz kapcsolódnak. Pontosabban, a valószínűségi értelmezés az aktiválási nemlinearitást kumulatív eloszlásfüggvénynek tekinti.[23] A valószínűségi értelmezés vezetett a kiesés mint regularizátor bevezetéséhez a neurális hálózatokban. A valószínűségi értelmezést többek között Hopfield, Widrow és Narendra kutatók vezették be, és olyan felmérésekben népszerűsítették, mint például Bishop.[26]
Jegyzetek
[szerkesztés]- 1 2 LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep Learning" (PDF). Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. doi:10.1038/nature14539. PMID 26017442. S2CID 3074096.
- ↑ Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. 3642–3649. o. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
- ↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. 2017. január 10. dátummal az eredetiből archiválva (PDF). Hozzáférés: 2017. május 24..
- ↑ "Google's AlphaGo AI wins three-match series against the world's best Go player". TechCrunch. 2017. május 25. 2018. június 17. dátummal az eredetiből archiválva. Hozzáférés: 2018. június 17..
- ↑ "Study urges caution when comparing neural networks to the brain". MIT News | Massachusetts Institute of Technology (angol nyelven). 2022. november 2. Hozzáférés: 2023. december 6..
- 1 2 Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. S2CID 207178999. 2016. március 4. dátummal az eredeti (PDF) címről archiválva. Hozzáférés: 2015. szeptember 3..
- 1 2 3 4 5 Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
- 1 2 3 Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
- ↑ Shigeki, Sugiyama (2019. április 12.). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (angol nyelven). IGI Global. ISBN 978-1-5225-8218-2.
- ↑ (2007) „Greedy layer-wise training of deep networks”. Advances in neural information processing systems: 153–160.
- 1 2 Hinton, G.E. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947.
- ↑ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online Archiválva 2016. április 19-i dátummal a Wayback Machine-ben.
- ↑ Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons. Science & Business Media. doi:10.1007/978-1-4757-3115-6. ISBN 978-0-7923-7824-2. Hozzáférés: 2023. december 27..
- ↑ Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
- ↑ Fradkov, Alexander L. (2020. január 1.). "Early History of Machine Learning". IFAC-PapersOnLine. 21st IFAC World Congress. 53 (2): 1385–1390. doi:10.1016/j.ifacol.2020.12.1888. ISSN 2405-8963. S2CID 235081987.
- 1 2 3 Cybenko (1989). "Approximations by superpositions of sigmoidal functions" (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. Bibcode:1989MCSS....2..303C. doi:10.1007/bf02551274. S2CID 3958369. 2015. október 10. dátummal az eredeti (PDF) címről archiválva. Hozzáférés: 2025. február 2..
{{cite journal}}: More than one of|archivedate=és|archive-date=specified (súgó); More than one of|archiveurl=és|archive-url=specified (súgó) - 1 2 3 Hornik, Kurt (1991). "Approximation Capabilities of Multilayer Feedforward Networks". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t. S2CID 7343126.
- 1 2 Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. Prentice Hall. ISBN 978-0-13-273350-2.
- 1 2 Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. MIT Press. 48. o. ISBN 978-0-262-08239-6.
- ↑ Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width Archiválva 2019. február 13-i dátummal a Wayback Machine-ben.. Neural Information Processing Systems, 6231-6239.
- ↑ Orhan, A. E.; Ma, W. J. (2017). "Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback". Nature Communications. 8 (1): 138. Bibcode:2017NatCo...8..138O. doi:10.1038/s41467-017-00181-8. PMC 5527101. PMID 28743932.
- 1 2 Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. 2016. március 14. dátummal az eredetiből archiválva (PDF). Hozzáférés: 2014. október 18..
- 1 2 3 4 Murphy, Kevin P. (2012. augusztus 24.). Machine Learning: A Probabilistic Perspective. MIT Press. ISBN 978-0-262-01802-9.
- ↑ Fukushima, K. (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225.
- ↑ Sonoda, Sho; Murata, Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
- ↑ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. 2017. január 11. dátummal az eredetiből archiválva (PDF). Hozzáférés: 2017. augusztus 6..
{{cite book}}: More than one of|accessdate=és|access-date=specified (súgó); More than one of|archivedate=és|archive-date=specified (súgó); More than one of|archiveurl=és|archive-url=specified (súgó)
Irodalom
[szerkesztés]- Bishop, Christopher M.; Bishop, Hugh (2024). Deep learning: foundations and concepts. Springer. ISBN 978-3-031-45467-7.
- Prince, Simon J. D. (2023). Understanding deep learning. The MIT Press. ISBN 9780262048644.
- Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). Deep Learning. MIT Press. ISBN 978-0-26203561-3. 2016. április 16. dátummal az eredetiből archiválva. Hozzáférés: 2021. május 9., introductory textbook.
{{cite book}}: CS1 karbantartás: postscript (link)