Màquines d'aprenentatge extrem

Les màquines d'aprenentatge extrem són xarxes neuronals anticipades per a la classificació, la regressió, l'agrupació, l'aproximació escassa, la compressió i l'aprenentatge de funcions amb una sola capa o diverses capes de nodes ocults, on els paràmetres dels nodes ocults (no només els pesos que connecten les entrades als nodes ocults) necessiten per ser afinat. Aquests nodes ocults es poden assignar aleatòriament i no actualitzar-se mai (és a dir, són de projecció aleatòria però amb transformacions no lineals), o es poden heretar dels seus avantpassats sense canviar-los. En la majoria dels casos, els pesos de sortida dels nodes ocults s'aprenen generalment en un sol pas, que bàsicament equival a aprendre un model lineal.

El nom de "màquina d'aprenentatge extrem" (ELM) va ser donat a aquests models per Guang-Bin Huang. La idea es remunta a Frank Rosenblatt, que no només va publicar una sola capa Perceptron l'any 1958,^[1] sinó que també va introduir un perceptró multicapa amb 3 capes: una capa d'entrada, una capa oculta amb pesos aleatoris que no van aprendre i un capa de sortida d'aprenentatge.^[2]

Segons alguns investigadors, aquests models són capaços de produir un bon rendiment de generalització i d'aprendre milers de vegades més ràpid que les xarxes entrenades mitjançant la retropropagació.^[3] A la literatura, també mostra que aquests models poden superar les màquines vectorials de suport tant en aplicacions de classificació com de regressió.^[4]^[5]

Història

Entre 2001 i 2010, la investigació de l'ELM es va centrar principalment en el marc d'aprenentatge unificat per a xarxes neuronals d'alimentació anticipada d'una sola capa "generalitzada" (SLFN), incloses, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar,^[6] xarxes trigonomètriques, borroses. sistemes d'inferència, sèries de Fourier,^[7]^[8] Transformada Laplacià, xarxes wavelet,^[9] etc. Un assoliment significatiu aconseguit en aquests anys és demostrar amb èxit les capacitats universals d'aproximació i classificació de l'ELM en teoria.^[7] ^[10]^[11]

Algorismes

Donada una única capa oculta d'ELM, suposem que la funció de sortida de la $i$ -el node ocult és $h_{i}(\mathbf {x} )=G(\mathbf {a} _{i},b_{i},\mathbf {x} )$ , on $\mathbf {a} _{i}$ i $b_{i}$ són els paràmetres de la $i$ -è node ocult. La funció de sortida de l'ELM per a xarxes de feedforward de capa oculta única (SLFN) amb $L$ nodes ocults és:

$f_{L}({\bf {x}})=\sum _{i=1}^{L}{\boldsymbol {\beta }}_{i}h_{i}({\bf {x}})$ , on ${\boldsymbol {\beta }}_{i}$ és el pes de sortida del $i$ -è node ocult.

$\mathbf {h} (\mathbf {x} )=[h_{i}(\mathbf {x} ),...,h_{L}(\mathbf {x} )]$ és el mapeig de sortida de la capa oculta d'ELM. Donat $N$ mostres d'entrenament, la matriu de sortida de la capa oculta $\mathbf {H}$ d'ELM es dona com:

${\bf {H}}=\left[{\begin{matrix}{\bf {h}}({\bf {x}}_{1})\\\vdots \\{\bf {h}}({\bf {x}}_{N})\end{matrix}}\right]=\left[{\begin{matrix}G({\bf {a}}_{1},b_{1},{\bf {x}}_{1})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{1})\\\vdots &\vdots &\vdots \\G({\bf {a}}_{1},b_{1},{\bf {x}}_{N})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{N})\end{matrix}}\right]$

i $\mathbf {T}$ és la matriu objectiu de dades d'entrenament:

${\bf {T}}=\left[{\begin{matrix}{\bf {t}}_{1}\\\vdots \\{\bf {t}}_{N}\end{matrix}}\right]$

En termes generals, ELM és una mena de xarxes neuronals de regularització, però amb mapes de capes ocultes no sintonitzades (formades per nodes ocults aleatoris, nuclis o altres implementacions), la seva funció objectiu és:

${\text{Minimització: }}\|{\boldsymbol {\beta }}\|_{p}^{\sigma _{1}}+C\|{\bf {H}}{\boldsymbol {\beta }}-{\bf {T}}\|_{q}^{\sigma _{2}}$

on $\sigma _{1}>0,\sigma _{2}>0,p,q=0,{\frac {1}{2}},1,2,\cdots ,+\infty$

Diferents combinacions de $\sigma _{1}$ , $\sigma _{2}$ , $p$ i $q$ es pot utilitzar i donar lloc a diferents algorismes d'aprenentatge per a regressió, classificació, codificació escassa, compressió, aprenentatge de funcions i agrupació.

Arquitectures

En la majoria dels casos, ELM s'utilitza com a xarxa d'alimentació anticipada de capa oculta (SLFN) que inclou, entre d'altres, xarxes sigmoides, xarxes RBF, xarxes de llindar, xarxes d'inferència difusa, xarxes neuronals complexes, xarxes wavelet, transformada de Fourier, transformada Laplacià, etc. A causa de les seves diferents implementacions d'algorismes d'aprenentatge per a la regressió, la classificació, la codificació escassa, la compressió, l'aprenentatge de característiques i l'agrupació, els multi ELM s'han utilitzat per formar xarxes de múltiples capes ocultes, aprenentatge profund o xarxes jeràrquiques.^[12]^[13]

Referències

↑ Rosenblatt, Frank Psychological Review, 65, 6, 1958, pàg. 386–408. DOI: 10.1037/h0042519. PMID: 13602029.
↑ Rosenblatt, Frank. Principles of Neurodynamics (en anglès). Spartan, New York, 1962.
↑ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong Neurocomputing, 70, 1, 2006, pàg. 489–501. DOI: 10.1016/j.neucom.2005.12.126.
↑ Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang «Còpia arxivada». IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 42, 2, 2012, pàg. 513–529. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tsmcb.2011.2168604. PMID: 21984515 [Consulta: 15 agost 2023].
↑ Huang, Guang-Bin «Còpia arxivada». Cognitive Computation, 7, 3, 2015, pàg. 263–278. Arxivat de l'original el 2017-06-10. DOI: 10.1007/s12559-015-9333-0 [Consulta: 15 agost 2023].
↑ Huang, Guang-Bin, Qin-Yu Zhu, K. Z. Mao, Chee-Kheong Siew, P. Saratchandran, and N. Sundararajan «Còpia arxivada». IEEE Transactions on Circuits and Systems-II: Express Briefs, 53, 3, 2006, pàg. 187–191. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tcsii.2005.857540 [Consulta: 15 agost 2023].
↑ ^7,0 ^7,1 Huang, Guang-Bin, Lei Chen, and Chee-Kheong Siew «Còpia arxivada». IEEE Transactions on Neural Networks, 17, 4, 2006, pàg. 879–892. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tnn.2006.875977. PMID: 16856652 [Consulta: 15 agost 2023].
↑ Rahimi, Ali, and Benjamin Recht Advances in Neural Information Processing Systems, 21, 2008.
↑ Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang Neurocomputing, 73, 7–9, 2010, pàg. 1405–1416. DOI: 10.1016/j.neucom.2009.12.007.
↑ Huang, Guang-Bin, Lei Chen «Còpia arxivada». Neurocomputing, 70, 16–18, 2007, pàg. 3056–3062. Arxivat de l'original el 2017-08-10. DOI: 10.1016/j.neucom.2007.02.009 [Consulta: 15 agost 2023].
↑ Huang, Guang-Bin, and Lei Chen «Còpia arxivada». Neurocomputing, 71, 16–18, 2008, pàg. 3460–3468. Arxivat de l'original el 2014-10-14. DOI: 10.1016/j.neucom.2007.10.008 [Consulta: 15 agost 2023].
↑ Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong «Còpia arxivada». IEEE Computational Intelligence Magazine, 10, 2, 2015, pàg. 18–29. Arxivat de l'original el 2017-08-08. DOI: 10.1109/mci.2015.2405316 [Consulta: 15 agost 2023].
↑ Tang, Jiexiong, Chenwei Deng, and Guang-Bin Huang «Còpia arxivada». IEEE Transactions on Neural Networks and Learning Systems, 27, 4, 2016, pàg. 809–821. Arxivat de l'original el 2017-07-12. DOI: 10.1109/tnnls.2015.2424995. PMID: 25966483 [Consulta: 15 agost 2023].

[1] Rosenblatt, Frank Psychological Review, 65, 6, 1958, pàg. 386–408. DOI: 10.1037/h0042519. PMID: 13602029.

[rosenblatt1962-2] Rosenblatt, Frank. Principles of Neurodynamics (en anglès). Spartan, New York, 1962.

[3] Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong Neurocomputing, 70, 1, 2006, pàg. 489–501. DOI: 10.1016/j.neucom.2005.12.126.

[:43-4] Huang, Guang-Bin; Hongming Zhou; Xiaojian Ding; and Rui Zhang «Còpia arxivada». IEEE Transactions on Systems, Man, and Cybernetics - Part B: Cybernetics, 42, 2, 2012, pàg. 513–529. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tsmcb.2011.2168604. PMID: 21984515 [Consulta: 15 agost 2023].

[:03-5] Huang, Guang-Bin «Còpia arxivada». Cognitive Computation, 7, 3, 2015, pàg. 263–278. Arxivat de l'original el 2017-06-10. DOI: 10.1007/s12559-015-9333-0 [Consulta: 15 agost 2023].

[6] Huang, Guang-Bin, Qin-Yu Zhu, K. Z. Mao, Chee-Kheong Siew, P. Saratchandran, and N. Sundararajan «Còpia arxivada». IEEE Transactions on Circuits and Systems-II: Express Briefs, 53, 3, 2006, pàg. 187–191. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tcsii.2005.857540 [Consulta: 15 agost 2023].

[:12-7] 7,0 ^7,1 Huang, Guang-Bin, Lei Chen, and Chee-Kheong Siew «Còpia arxivada». IEEE Transactions on Neural Networks, 17, 4, 2006, pàg. 879–892. Arxivat de l'original el 2017-08-29. DOI: 10.1109/tnn.2006.875977. PMID: 16856652 [Consulta: 15 agost 2023].

[8] Rahimi, Ali, and Benjamin Recht Advances in Neural Information Processing Systems, 21, 2008.

[9] Cao, Jiuwen, Zhiping Lin, Guang-Bin Huang Neurocomputing, 73, 7–9, 2010, pàg. 1405–1416. DOI: 10.1016/j.neucom.2009.12.007.

[:24-10] Huang, Guang-Bin, Lei Chen «Còpia arxivada». Neurocomputing, 70, 16–18, 2007, pàg. 3056–3062. Arxivat de l'original el 2017-08-10. DOI: 10.1016/j.neucom.2007.02.009 [Consulta: 15 agost 2023].

[:33-11] Huang, Guang-Bin, and Lei Chen «Còpia arxivada». Neurocomputing, 71, 16–18, 2008, pàg. 3460–3468. Arxivat de l'original el 2014-10-14. DOI: 10.1016/j.neucom.2007.10.008 [Consulta: 15 agost 2023].

[:5-12] Huang, Guang-Bin, Zuo Bai, and Liyanaarachchi Lekamalage Chamara Kasun, and Chi Man Vong «Còpia arxivada». IEEE Computational Intelligence Magazine, 10, 2, 2015, pàg. 18–29. Arxivat de l'original el 2017-08-08. DOI: 10.1109/mci.2015.2405316 [Consulta: 15 agost 2023].

[:6-13] Tang, Jiexiong, Chenwei Deng, and Guang-Bin Huang «Còpia arxivada». IEEE Transactions on Neural Networks and Learning Systems, 27, 4, 2016, pàg. 809–821. Arxivat de l'original el 2017-07-12. DOI: 10.1109/tnnls.2015.2424995. PMID: 25966483 [Consulta: 15 agost 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]