Regularització de l'esparsitat estructurada
La regularització de la dispersió estructurada és una classe de mètodes i una àrea d'investigació en la teoria de l'aprenentatge estadístic, que estenen i generalitzen els mètodes d'aprenentatge de la regularització de la dispersió.[1] Tant els mètodes de regularització de l'escassetat com l'estructurada busquen explotar el supòsit que la variable de sortida (és a dir, resposta o variable dependent) a aprendre es pot descriure mitjançant un nombre reduït de variables a l'espai d'entrada (és a dir, el domini, l'espai de característiques o variables explicatives). Els mètodes de regularització de la dispersió se centren a seleccionar les variables d'entrada que descriuen millor la sortida. Els mètodes de regularització de la dispersió estructurada generalitzen i amplien els mètodes de regularització de la dispersió, permetent una selecció òptima sobre estructures com ara grups o xarxes de variables d'entrada en .[2]
La motivació comuna per a l'ús de mètodes de dispersió estructurada és la interpretabilitat del model, l'aprenentatge d'alta dimensió (on la dimensionalitat de pot ser superior al nombre d'observacions ), i reducció de la complexitat computacional. A més, els mètodes d'esparsitat estructurada permeten incorporar supòsits previs sobre l'estructura de les variables d'entrada, com ara grups superposats, [3] grups no superposats i gràfics acíclics. Alguns exemples d'ús dels mètodes d'esparsitat estructurada inclouen el reconeixement facial, el processament d'imatges de ressonància magnètica (MRI), [4] l'anàlisi sociolingüística en el processament del llenguatge natural, [5] i l'anàlisi de l'expressió genètica en el càncer de mama.[6]
Definició i conceptes relacionats
[modifica]Regularització de la dispersió
[modifica]Considereu el problema de minimització del risc empíric regularitzat del nucli lineal amb una funció de pèrdua i la "norma" com a penalització de regularització:
on , i denota la "norma", definit com el nombre d'entrades diferents de zero del vector . es diu que és escàs si . El que significa que la sortida es pot descriure mitjançant un petit subconjunt de variables d'entrada.
De manera més general, suposa un diccionari amb es dona, de manera que la funció objectiu d'un problema d'aprenentatge es pot escriure com:
,
El norma com el nombre de components diferents de zero de es defineix com
, on és la cardinalitat del conjunt .
es diu que és escàs si .
Tanmateix, mentre s'utilitza el La norma de regularització afavoreix solucions més disperses, és difícil d'utilitzar computacionalment i, a més, no és convexa. Una norma computacionalment més factible que afavoreix solucions més disperses és la norma; S'ha demostrat que encara afavoreix solucions més disperses i, a més, és convex.
Regularització de l'escassetat estructurada
[modifica]La regularització de l'escassetat estructurada amplia i generalitza el problema de selecció de variables que caracteritza la regularització de l'escassetat.[1][2] Considereu el problema de minimització del risc empíric regularitzat anteriorment amb un nucli general i un mapa de característiques associats ϕj:X→R amb j=1,...,p
.
El termini de regularització λ‖w‖0 penalitza a cadascun wj component independentment, el que significa que l'algorisme suprimirà les variables d'entrada de manera independent les unes de les altres.
En diverses situacions podem voler imposar més estructura en el procés de regularització, de manera que, per exemple, les variables d'entrada es suprimeixin segons grups predefinits. Els mètodes de regularització de l'esparsa estructurada permeten imposar aquesta estructura afegint estructura a les normes que defineixen el terme de regularització.
Usos i aplicacions addicionals
[modifica]Els mètodes de regularització de la dispersió estructurada s'han utilitzat en diversos entorns on es vol imposar una estructura de variables d'entrada a priori al procés de regularització. Algunes d'aquestes aplicacions són:
- Detecció compressiva en imatges de ressonància magnètica (MRI), reconstrucció d'imatges de RM a partir d'un nombre reduït de mesures, que pot produir reduccions significatives en el temps d'exploració de RM
- Reconeixement facial robust en presència de desalineació, oclusió i variació d'il·luminació
- Descobrint associacions sociolingüístiques entre les freqüències lèxiques utilitzades pels autors de Twitter i les variables sociodemogràfiques de les seves comunitats geogràfiques
- Anàlisi de selecció de gens de dades de càncer de mama utilitzant anteriors de grups superposats, per exemple, conjunts de gens biològicament significatius
Referències
[modifica]- ↑ Rosasco, Lorenzo. A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes (en anglès), December 2014.
- ↑ Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.
- ↑ Yuan, M.; Lin, Y. J. R. Stat. Soc. B, 68, 1, 2006, pàg. 49–67. DOI: 10.1111/j.1467-9868.2005.00532.x.
- ↑ Chen, Chen. «Compressive Sensing MRI with Wavelet Tree Sparsity». A: Proceedings of the 26th Annual Conference on Neural Information Processing Systems (en anglès). 25. Curran Associates, 2012, p. 1115–1123.
- ↑ Eisenstein, Jacob; etal Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 2011.
- ↑ Jacob, Laurent; etal Proceedings of the 26th International Conference on Machine Learning, 2009.