Teorema de l'aproximació universal

En la teoria matemàtica de les xarxes neuronals artificials, els teoremes d'aproximació universal són teoremes ^[1] de la forma següent: Donada una família de xarxes neuronals, per a cada funció $f$ a partir d'un determinat espai funcional, existeix una seqüència de xarxes neuronals $\phi _{1},\phi _{2},\dots$ de la família, tal que $\phi _{n}\to f$ segons algun criteri. És a dir, la família de xarxes neuronals és densa a l'espai funcional.

La versió més popular estableix que les xarxes feedforward amb funcions d'activació no polinomials són denses en l'espai de funcions contínues entre dos espais euclidians, respecte a la topologia de convergència compacta.

Els teoremes d'aproximació universal són teoremes d'existència: simplement afirmen que existeix aquesta seqüència. $\phi _{1},\phi _{2},\dots \to f$ , i no proporcionen cap manera de trobar realment aquesta seqüència. Tampoc garanteixen que cap mètode, com ara la retropropagació, pugui trobar aquesta seqüència. Qualsevol mètode per cercar l'espai de les xarxes neuronals, inclosa la retropropagació, pot trobar una seqüència convergent, o no (és a dir, la retropropagació es pot quedar atrapada en un òptim local).

Els teoremes d'aproximació universals són teoremes límit: simplement indiquen que per a qualsevol $f$ i un criteri de proximitat $\epsilon >0$ , si hi ha prou neurones en una xarxa neuronal, aleshores existeix una xarxa neuronal amb tantes neurones que s'aproxima $f$ a dins $\epsilon$ . No hi ha cap garantia que una mida finita, per exemple, 10.000 neurones, sigui suficient.

Configuració

Les xarxes neuronals artificials són combinacions de múltiples funcions matemàtiques simples que implementen funcions més complicades des de (normalment) vectors de valor real fins a vectors de valor real. Els espais de funcions multivariants que es poden implementar per una xarxa estan determinats per l'estructura de la xarxa, el conjunt de funcions simples i els seus paràmetres multiplicatius. S'ha fet una gran quantitat de treball teòric per caracteritzar aquests espais funcionals.

La majoria dels teoremes d'aproximació universals es troben en una de les dues classes. El primer quantifica les capacitats d'aproximació de les xarxes neuronals amb un nombre arbitrari de neurones artificials ("cas d'amplada arbitraria ") i el segon se centra en el cas amb un nombre arbitrari de capes ocultes, cadascuna conté un nombre limitat de neurones artificials (" profunditat arbitrària "). "cas). A més d'aquestes dues classes, també hi ha teoremes d'aproximació universals per a xarxes neuronals amb un nombre limitat de capes ocultes i un nombre limitat de neurones a cada capa ("cas de profunditat i amplada limitada").

Història

Amplada arbitrària

Els primers exemples van ser el cas d'amplada arbitraria. George Cybenko el 1989 ho va demostrar per a les funcions d'activació sigmoide.,^[2] Maxwell Stinchcombe i Halbert White van demostrar l'any 1989 que les xarxes d'alimentació anticipada multicapa amb tan sols una capa oculta són aproximadores universals.^[3] Hornik també va demostrar l'any 1991 ^[4] que no és l'elecció específica de la funció d'activació, sinó més aviat la pròpia arquitectura de feed-forward multicapa la que dóna a les xarxes neuronals el potencial de ser aproximadores universals. Moshe Leshno et al el 1993 ^[5] i posteriorment Allan Pinkus el 1999 ^[6] van demostrar que la propietat d'aproximació universal és equivalent a tenir una funció d'activació no polinòmica.

Profunditat arbitrària

El cas de profunditat arbitrari també va ser estudiat per diversos autors com Gustaf Gripenberg el 2003, ^[7] Dmitry Yarotsky, ^[8] Zhou Lu et al el 2017, ^[9] Boris Hanin i Mark Sellke el 2018 que es van centrar. en xarxes neuronals amb funció d'activació ReLU. El 2020, Patrick Kidger i Terry Lyons van estendre aquests resultats a xarxes neuronals amb funcions d'activació generals, com ara tanh, GeLU o Swish.

Profunditat limitada i amplada delimitada

Maiorov i Pinkus van estudiar per primera vegada el cas de la profunditat i l'amplada delimitades el 1999.^[10] Van demostrar que existeix una funció d'activació sigmoïdal analítica de manera que dues xarxes neuronals de capes ocultes amb un nombre limitat d'unitats en capes ocultes són aproximadors universals.

Límits quantitatius

La qüestió de l'amplada mínima possible per a la universalitat es va estudiar per primera vegada l'any 2021, Park et al van obtenir l'amplada mínima necessària per a l'aproximació universal de les funcions L^p utilitzant xarxes neuronals d'alimentació amb ReLU com a funcions d'activació. Paulo Tabuada i Bahman Gharesifard també van obtenir resultats similars que es poden aplicar directament a xarxes neuronals residuals el mateix any mitjançant arguments teòrics de control. El 2023, Cai ^[11] va obtenir l'amplada mínima òptima limitada per a l'aproximació universal.

Xarxa Kolmogorov

El teorema de representació de Kolmogorov-Arnold és similar en esperit. De fet, certes famílies de xarxes neuronals poden aplicar directament el teorema de Kolmogorov-Arnold per obtenir un teorema d'aproximació universal.

Referències

↑ Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert Neural Networks, 2, 5, 1-1989, pàg. 359–366. DOI: 10.1016/0893-6080(89)90020-8.
↑ Cybenko, G. Mathematics of Control, Signals, and Systems, 2, 4, 1989, pàg. 303–314. DOI: 10.1007/BF02551274.
↑ Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert Neural Networks, 2, 5, 1-1989, pàg. 359–366. DOI: 10.1016/0893-6080(89)90020-8.
↑ Hornik, Kurt Neural Networks, 4, 2, 1991, pàg. 251–257. DOI: 10.1016/0893-6080(91)90009-T.
↑ Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon Neural Networks, 6, 6, 1-1993, pàg. 861–867. DOI: 10.1016/S0893-6080(05)80131-5.
↑ Pinkus, Allan Acta Numerica, 8, 1-1999, pàg. 143–195. Bibcode: 1999AcNum...8..143P. DOI: 10.1017/S0962492900002919.
↑ Gripenberg, Gustaf Journal of Approximation Theory, 122, 2, 6-2003, pàg. 260–266. DOI: 10.1016/S0021-9045(03)00078-9.
↑ Yarotsky, Dmitry Neural Networks, 94, 10-2017, pàg. 103–114. arXiv: 1610.01145. DOI: 10.1016/j.neunet.2017.07.002. PMID: 28756334.
↑ Lu, Zhou; Pu, Hongming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei Advances in Neural Information Processing Systems, 30, 2017, pàg. 6231–6239. arXiv: 1709.02540.
↑ Maiorov, Vitaly; Pinkus, Allan Neurocomputing, 25, 1–3, 4-1999, pàg. 81–91. DOI: 10.1016/S0925-2312(98)00111-8.
↑ Cai, Yongqiang (en anglès) ICLR, 01-02-2023. arXiv: 2209.11395.

[MLP-UA-1] Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert Neural Networks, 2, 5, 1-1989, pàg. 359–366. DOI: 10.1016/0893-6080(89)90020-8.

[cyb-2] Cybenko, G. Mathematics of Control, Signals, and Systems, 2, 4, 1989, pàg. 303–314. DOI: 10.1007/BF02551274.

[MLP-UA2-3] Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert Neural Networks, 2, 5, 1-1989, pàg. 359–366. DOI: 10.1016/0893-6080(89)90020-8.

[horn-4] Hornik, Kurt Neural Networks, 4, 2, 1991, pàg. 251–257. DOI: 10.1016/0893-6080(91)90009-T.

[leshno-5] Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon Neural Networks, 6, 6, 1-1993, pàg. 861–867. DOI: 10.1016/S0893-6080(05)80131-5.

[pinkus-6] Pinkus, Allan Acta Numerica, 8, 1-1999, pàg. 143–195. Bibcode: 1999AcNum...8..143P. DOI: 10.1017/S0962492900002919.

[gripenberg-7] Gripenberg, Gustaf Journal of Approximation Theory, 122, 2, 6-2003, pàg. 260–266. DOI: 10.1016/S0021-9045(03)00078-9.

[8] Yarotsky, Dmitry Neural Networks, 94, 10-2017, pàg. 103–114. arXiv: 1610.01145. DOI: 10.1016/j.neunet.2017.07.002. PMID: 28756334.

[ZhouLu-9] Lu, Zhou; Pu, Hongming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei Advances in Neural Information Processing Systems, 30, 2017, pàg. 6231–6239. arXiv: 1709.02540.

[maiorov-10] Maiorov, Vitaly; Pinkus, Allan Neurocomputing, 25, 1–3, 4-1999, pàg. 81–91. DOI: 10.1016/S0925-2312(98)00111-8.

[:19-11] Cai, Yongqiang (en anglès) ICLR, 01-02-2023. arXiv: 2209.11395.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]