Lasso (estadística)
En estadística i aprenentatge automàtic, lasso (operador de selecció i contracció mínima absoluta; també Lasso o LASSO) és un mètode d'anàlisi de regressió que realitza tant la selecció de variables com la regularització per tal de millorar la precisió de predicció i la interpretabilitat del model estadístic resultant. Va ser introduït originalment en geofísica,[1] i més tard per Robert Tibshirani,[2] que va encunyar el terme.
Lasso es va formular originalment per a models de regressió lineal. Aquest cas senzill revela una quantitat substancial sobre l'estimador. Aquests inclouen la seva relació amb la regressió de la cresta i la selecció del millor subconjunt i les connexions entre les estimacions del coeficient de lazo i l'anomenat llindar suau. També revela que (com la regressió lineal estàndard) les estimacions dels coeficients no han de ser úniques si les covariables són colineals.
Tot i que es va definir originalment per a la regressió lineal, la regularització de lazo s'estén fàcilment a altres models estadístics, inclosos els models lineals generalitzats, les equacions d'estimació generalitzades, els models de riscos proporcionals i els estimadors M. [3][4] La capacitat de Lasso per dur a terme la selecció de subconjunts depèn de la forma de la restricció i té una varietat d'interpretacions que inclouen en termes de geometria, estadística bayesiana i anàlisi convexa.
El LASSO està estretament relacionat amb l'eliminació de sorolls de recerca de base.
Història
[modifica]Es va introduir Lasso per tal de millorar la precisió de predicció i la interpretabilitat dels models de regressió. Selecciona un conjunt reduït de covariables conegudes per utilitzar-les en un model.[5][6]
Lasso es va desenvolupar de manera independent a la literatura de geofísica el 1986, basant-se en treballs previs que utilitzaven el penalització tant per l'ajustament com per la penalització dels coeficients. L'estadístic Robert Tibshirani el va redescobrir i popularitzar de manera independent el 1996, basant-se en el garrot no negatiu de Breiman.[7][8]
Forma bàsica
[modifica]Mínims quadrats
[modifica]Considereu una mostra formada per N casos, cadascun dels quals consta de p covariables i un únic resultat. Deixar ser el resultat i sigui el vector covariable per al cas i . Llavors l'objectiu del lazo és resoldre
Aquí és el coeficient constant, és el vector coeficient, i és un paràmetre lliure predeterminat que determina el grau de regularització.
sigui la matriu de covariables, de manera que i és la ia fila de , l'expressió es pot escriure de manera més compacta com
on és l'estàndard norma.
Covariables ortonormals
[modifica]Ara es poden considerar algunes propietats bàsiques de l'estimador de lazo.
Suposant primer que les covariables són ortonormals de manera que , on és el delta de Kronecker o, de manera equivalent, , llavors utilitzant mètodes de subgradient es pot demostrar que
Forma general
[modifica]- La regularització del lazo es pot estendre a altres funcions objectives, com ara les dels models lineals generalitzats, les equacions d'estimació generalitzades, els models de riscos proporcionals i els estimadors M. [9][10] Donada la funció objectiu
- la versió regularitzada amb lazo de l'estimador és la solució a
- on només es penalitza mentre és lliure d'assumir qualsevol valor permès, igual que no va ser penalitzat en el cas bàsic.
Interpretacions
[modifica]Interpretació geomètrica
[modifica]Lasso pot posar els coeficients a zero, mentre que la regressió de cresta superficialment semblant no. Això es deu a la diferència en la forma dels seus límits de restricció. Tant la regressió de lazo com la de cresta es poden interpretar com una minimització de la mateixa funció objectiu.
Interpretació bayesiana
[modifica]De la mateixa manera que la regressió de cresta es pot interpretar com una regressió lineal per a la qual els coeficients s'han assignat distribucions anteriors normals, lasso es pot interpretar com una regressió lineal per a la qual els coeficients tenen distribucions anteriors de Laplace. La distribució de Laplace té un pic marcat a zero (la seva primera derivada és discontínua a zero) i concentra la seva massa de probabilitat més a prop de zero que la distribució normal. Això proporciona una explicació alternativa de per què el lazo tendeix a posar alguns coeficients a zero, mentre que la regressió de cresta no ho fa.[11]
Referències
[modifica]- ↑ Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
- ↑ Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
- ↑ Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
- ↑ Tibshirani, Robert Statistics in Medicine, 16, 4, 1997, pàg. 385–395. DOI: 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. PMID: 9044528.
- ↑ Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
- ↑ Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
- ↑ Santosa, Fadil; Symes, William W. SIAM Journal on Scientific and Statistical Computing, 7, 4, 1986, pàg. 1307–1330. DOI: 10.1137/0907087.
- ↑ Breiman, Leo Technometrics, 37, 4, 1995, pàg. 373–84. DOI: 10.1080/00401706.1995.10484371.
- ↑ Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.
- ↑ Tibshirani, Robert Statistics in Medicine, 16, 4, 1997, pàg. 385–395. DOI: 10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. PMID: 9044528.
- ↑ Tibshirani, Robert Journal of the Royal Statistical Society, 58, 1, 1996, pàg. 267–88. JSTOR: 2346178.