Vés al contingut

Validació de regressió

De la Viquipèdia, l'enciclopèdia lliure

En estadística, la validació de regressió és el procés de decidir si els resultats numèrics que quantifiquen les hipòtesis de relacions entre variables, obtinguts a partir de l'anàlisi de regressió, són acceptables com a descripcions de les dades. El procés de validació pot implicar analitzar la bondat d'ajust de la regressió, analitzar si els residus de la regressió són aleatoris i comprovar si el rendiment predictiu del model es deteriora substancialment quan s'aplica a dades que no s'han utilitzat en l'estimació del model.[1]

Bondat de l'ajust

[modifica]

Una mesura de bondat d'ajust és el R2 (coeficient de determinació), que en els mínims quadrats ordinaris amb una intercepció oscil·la entre 0 i 1. No obstant això, una R2 propera a 1 no garanteix que el model s'ajusti bé a les dades: com mostra el quartet d'Anscombe, una R2 elevada es pot produir en presència d'una especificació incorrecta de la forma funcional d'una relació o en presència de valors atípics que distorsionen la veritable relació.[2]

Un problema amb la R2 com a mesura de validesa del model és que sempre es pot augmentar afegint més variables al model, excepte en el cas poc probable que les variables addicionals no estiguin exactament correlacionades amb la variable dependent de la mostra de dades que s'utilitza. Aquest problema es pot evitar fent una prova F de la significació estadística de l'augment de la R2, o bé utilitzant la R2 ajustada.[3]

plot of a fit and residuals to illustrate how plotting residuals allows us to evaluate how good a fit is
Un gràfic il·lustratiu d'un ajust a les dades (corba verda al panell superior, dades en vermell) més un gràfic de residus: punts vermells al gràfic inferior. La corba discontínua del panell inferior és una línia recta que s'ajusta als residus. Si la forma funcional és correcta, hi hauria d'haver poca o cap tendència als residus, com es veu aquí.

Anàlisi de residus

[modifica]

Els residus d'un model ajustat són les diferències entre les respostes observades a cada combinació de valors de les variables explicatives i la corresponent predicció de la resposta calculada mitjançant la funció de regressió. Matemàticament, s'escriu la definició del residu per a la ia observació del conjunt de dades

amb y i denota la resposta i-è en el conjunt de dades i xi el vector de variables explicatives, cadascuna estableix els valors corresponents que es troben a la i-è observació del conjunt de dades.

Si l'ajust del model a les dades fos correcte, els residus aproximarien els errors aleatoris que fan que la relació entre les variables explicatives i la variable de resposta sigui una relació estadística. Per tant, si els residus semblen comportar-se de manera aleatòria, suggereix que el model s'ajusta bé a les dades. D'altra banda, si l'estructura no aleatòria és evident en els residus, és un clar senyal que el model s'ajusta malament a les dades. La següent secció detalla els tipus de trames que s'han d'utilitzar per provar diferents aspectes d'un model i ofereix les interpretacions correctes dels diferents resultats que es podrien observar per a cada tipus de trama.[4]

Referències

[modifica]
  1. Hiregoudar, Shravankumar. «Ways to Evaluate Regression Models» (en anglès), 04-03-2022. [Consulta: 14 abril 2024].
  2. «Validation of Regression Models: Methods and Examples» (en anglès). [Consulta: 13 abril 2024].
  3. «Assumptions Of Linear Regression – How to Validate and Fix» (en anglès), 27-10-2019. [Consulta: 14 abril 2024].
  4. Chen, Ray. «Validate Regression Models with Visual Tools and Statistical Tests in Python» (en anglès), 19-07-2023. [Consulta: 14 abril 2024].