Compromís biaix-variància

En estadístiques i aprenentatge automàtic, la compromís biaix-variància és la propietat d'un model que la variància del paràmetre estimat entre mostres es pot reduir augmentant el biaix en els paràmetres estimats. El dilema de biaix-variància o problema de biaix-variància és el conflicte en intentar minimitzar simultàniament aquestes dues fonts d'error que impedeixen que els algorismes d'aprenentatge supervisat es generalitzin més enllà del seu conjunt d'entrenament: ^[1]

L'error de biaix és un error de suposicions errònies en l'algorisme d'aprenentatge. Un alt biaix pot fer que un algorisme perdi les relacions rellevants entre les característiques i les sortides objectiu (ajustament insuficient).
La variància és un error de la sensibilitat a petites fluctuacions en el conjunt d'entrenament. Una gran variància pot resultar d'un algorisme que modela el soroll aleatori a les dades d'entrenament (sobreajust).

La descomposició biaix-variància és una manera d'analitzar l'error de generalització esperat d'un algorisme d'aprenentatge respecte a un problema particular com una suma de tres termes, el biaix, la variància i una quantitat anomenada error irreductible, que resulta del soroll en el mateix problema.

Enfocaments

La reducció de la dimensionalitat i la selecció de característiques poden reduir la variància simplificant els models. De la mateixa manera, un conjunt d'entrenament més gran tendeix a disminuir la variància. L'addició de característiques (predictors) tendeix a disminuir el biaix, a costa d'introduir una variància addicional. Els algorismes d'aprenentatge solen tenir alguns paràmetres ajustables que controlen el biaix i la variància; per exemple,

Els models lineals i generalitzats es poden regularitzar per disminuir la seva variància a costa d'augmentar el seu biaix.^[2]
A les xarxes neuronals artificials, la variància augmenta i el biaix disminueix a mesura que augmenta el nombre d'unitats ocultes,^[3] encara que aquesta suposició clàssica ha estat objecte de debat recent. Igual que en els GLM, la regularització s'aplica normalment.
En els models k -veïns més propers, un valor elevat de $k$ condueix a un alt biaix i una baixa variància (vegeu més avall).
En l'aprenentatge basat en instàncies, la regularització es pot aconseguir variant la barreja de prototips i exemplars.^[4]
En els arbres de decisió, la profunditat de l'arbre determina la variància. Els arbres de decisió solen ser podats per controlar la variància.^[5] ^:307

Una manera de resoldre el compromís és utilitzar models de barreja i aprenentatge conjunt.^[6]^[7] Per exemple, l'impuls combina molts models "febles" (alt biaix) en un conjunt que té un biaix més baix que els models individuals, mentre que l'empaquetament combina aprenents "forts" d'una manera que redueix la seva variància.

Els mètodes de validació de models com ara la validació creuada (estadístiques) es poden utilitzar per ajustar els models per optimitzar la compensació.

Aplicacions

En regressió

La descomposició biaix-variància constitueix la base conceptual dels mètodes de regularització de regressió com ara Lasso i regressió de cresta. Els mètodes de regularització introdueixen un biaix a la solució de regressió que pot reduir considerablement la variància en relació amb la solució de mínims quadrats ordinaris (MCO). Tot i que la solució OLS proporciona estimacions de regressió no esbiaixades, les solucions de variància més baixes produïdes per les tècniques de regularització proporcionen un rendiment MSE superior.

En classificació

La descomposició biaix-variància es va formular originalment per a la regressió de mínims quadrats. Per al cas de classificació sota la pèrdua 0-1 (taxa de classificació errònia), és possible trobar una descomposició similar.^[8] Alternativament, si el problema de classificació es pot expressar com a classificació probabilística, aleshores l'error quadrat esperat de les probabilitats predites respecte a les probabilitats veritables es pot descompondre com abans.

En l'aprenentatge per reforç

Tot i que la descomposició biaix-variància no s'aplica directament a l'aprenentatge per reforç, una compensació similar també pot caracteritzar la generalització. Quan un agent té informació limitada sobre el seu entorn, la suboptimalitat d'un algorisme RL es pot descompondre en la suma de dos termes: un terme relacionat amb un biaix asimptòtic i un terme degut a un sobreajust. El biaix asimptòtic està directament relacionat amb l'algoritme d'aprenentatge (independentment de la quantitat de dades), mentre que el terme de sobreajust prové del fet que la quantitat de dades és limitada.^[9]

Referències

↑ Kohavi, Ron; Wolpert, David H. ICML, 96, 1996.
↑ Belsley, David. Conditioning diagnostics : collinearity and weak data in regression (en anglès). New York (NY): Wiley, 1991. ISBN 978-0471528890.
↑ Geman, Stuart; Bienenstock, Élie; Doursat, René Neural Computation, 4, 1992, pàg. 1–58. DOI: 10.1162/neco.1992.4.1.1.
↑ Gagliardi, Francesco Artificial Intelligence in Medicine, 52, 3, 5-2011, pàg. 123–139. DOI: 10.1016/j.artmed.2011.04.002. PMID: 21621400.
↑ James, Gareth. An Introduction to Statistical Learning (en anglès). Springer, 2013. Arxivat 2019-06-23 a Wayback Machine.
↑ Ting, Jo-Anne. «Locally Weighted Regression for Control». A: Sammut. Encyclopedia of Machine Learning (en anglès). Springer, 2011, p. 615.
↑ Fortmann-Roe, Scott. «Understanding the Bias–Variance Tradeoff» (en anglès).
↑ Valentini, Giorgio; Dietterich, Thomas G. Journal of Machine Learning Research, 5, 2004, pàg. 725–775.
↑ Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael Journal of Artificial Intelligence Research, 65, 2019, pàg. 1–30. DOI: 10.1613/jair.1.11478 [Consulta: free].

[1] Kohavi, Ron; Wolpert, David H. ICML, 96, 1996.

[2] Belsley, David. Conditioning diagnostics : collinearity and weak data in regression (en anglès). New York (NY): Wiley, 1991. ISBN 978-0471528890.

[geman-3] Geman, Stuart; Bienenstock, Élie; Doursat, René Neural Computation, 4, 1992, pàg. 1–58. DOI: 10.1162/neco.1992.4.1.1.

[4] Gagliardi, Francesco Artificial Intelligence in Medicine, 52, 3, 5-2011, pàg. 123–139. DOI: 10.1016/j.artmed.2011.04.002. PMID: 21621400.

[islr-5] James, Gareth. An Introduction to Statistical Learning (en anglès). Springer, 2013. Arxivat 2019-06-23 a Wayback Machine.

[6] Ting, Jo-Anne. «Locally Weighted Regression for Control». A: Sammut. Encyclopedia of Machine Learning (en anglès). Springer, 2011, p. 615.

[7] Fortmann-Roe, Scott. «Understanding the Bias–Variance Tradeoff» (en anglès).

[8] Valentini, Giorgio; Dietterich, Thomas G. Journal of Machine Learning Research, 5, 2004, pàg. 725–775.

[9] Francois-Lavet, Vincent; Rabusseau, Guillaume; Pineau, Joelle; Ernst, Damien; Fonteneau, Raphael Journal of Artificial Intelligence Research, 65, 2019, pàg. 1–30. DOI: 10.1613/jair.1.11478 [Consulta: free].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]