Prova de raó de versemblança

En estadística, una prova de raó de versemblança és un test estadístic per comparar la bondat de l'ajust de dos models, un dels quals (el model nul o hipòtesi nul·la) és un cas especial de l'altre (el model alternatiu o hipòtesi alternativa). La prova es basa en la raó de versemblança, que expressa quantes vegades és més probable que les dades estiguin en un model que a l'altre. Aquesta raó de versemblança, o equivalentment el seu logaritme, es pot utilitzar per calcular un valor p, o comparar-la amb un valor crític per decidir si es rebutja el model nul a favor del model alternatiu. Quan s'utilitza el logaritme de la raó de versemblança, hom diu que l'estadístic és un estadístic de raó de log-versemblança, i la distribució de probabilitat d'aquest test estadístic, suposant que el model nul és cert, es pot aproximar emprant el teorema de Wilks.

En el cas de distingir entre dos models, on cap dels dos no té cap paràmetre, es pot justificar l'ús del la prova de raó de versemblança segons el lema de Neyman-Pearson, que demostra que tal prova té el poder més gran de tots els competidors.^[1]

Definició

Hipòtesi simple

Sovint, un model estadístic és una família paramètrica de funcions de densitat de probabilitat o de funcions de probabilitat $f(x|\theta )$ . Un test d'hipòtesi "simple contra simple" té models completament especificats tant per la hipòtesi nul·la com per la hipòtesi alternativa, que, per convenció, s'escriuen en termes de valors fixats d'un paràmetre notacional $\theta$ :

{\begin{aligned}H_{0}&:&\theta =\theta _{0},\\H_{1}&:&\theta =\theta _{1}.\end{aligned}}

Cal notar que, sota cada hipòtesi, la distribució de les dades està completament especificada; no hi ha paràmetres desconeguts que calgui estimar. La prova de raó de versemblança en basa en la raó de versemblança, denotat per $\Lambda$ (la lletra majúscula lambda de l'alfabet grec). La raó de versemblança es defineix de la següent manera:^[2]^[3]

\Lambda (x)={\frac {L(\theta _{0}|x)}{L(\theta _{1}|x)}}={\frac {f(\cup _{i}\,x_{i}|\theta _{0})}{f(\cup _{i}\,x_{i}|\theta _{1})}}

o

\Lambda (x)={\frac {L(\theta _{0}\mid x)}{\sup\{\,L(\theta \mid x):\theta \in \{\theta _{0},\theta _{1}\}\}}}

,

on $L(\theta |x)$ és la funció de versemblança, i $\sup$ és la funció suprem. Cal notar que algunes referències bibliogràfiques poden emprar el recíproc en la definició.^[4] En la forma indicada en aquest article, la raó de versemblança és petita si el model alternatiu és millor que el model nul, i el test de raó de versemblança proporciona la següent regla de decisió:

Si

\Lambda >c

, no rebutjar

H_{0}

;

Si

\Lambda <c

, rebutjar

H_{0}

;

Rebutjar amb probabilitat

q

si

\Lambda =c

.

Hom escull els valors de $c$ i de $q$ per tal d'obtenir un cert nivell de significació, mitjançant la relació:

q\cdot P(\Lambda =c\;|\;H_{0})+P(\Lambda <c\;|\;H_{0})=\alpha

.

El lema de Neyman-Pearson afirma que aquest test de raó de versemblança és el més poderós entre tots els tests amb nivell $\alpha$ per a aquest problema.^[1]

Hipòtesi composta

Sovint s'estableix una hipòtesi nul·la dient que el paràmetre $\theta$ es troba en un subconjunt especificat $\Theta _{0}$ de l'espai de paràmetres $\Theta$ .

{\begin{aligned}H_{0}&:&\theta \in \Theta _{0}\\H_{1}&:&\theta \in \Theta _{0}^{\complement }\end{aligned}}

La funció de versemblança és $L(\theta |x)=f(x|\theta )$ (la funció de densitat de probabilitat o la funció de probabilitat), que és una funció del paràmetre $\theta$ amb $x$ fixat al valor observat, és a dir, les dades. L'estadístic del test de raó de versemblança és:^[5]

\Lambda (x)={\frac {\sup\{\,L(\theta \mid x):\theta \in \Theta _{0}\,\}}{\sup\{\,L(\theta \mid x):\theta \in \Theta \,\}}}

on $\sup$ representa la funció suprem.

Una prova de raó de versemblança és qualsevol prova amb una regió crítica (o regió de refús) de la forma $\{x|\Lambda \leq c\}$ , on $c$ és qualsevol nombre que satisfaci $0\leq c\leq 1$ . Molts tests estadístics, com el test Z, el test F, la prova de khi-quadrat de Pearson i el test G són proves per a models compostos, i es poden expressar en termes de raons de log-versemblança o en aproximacions a aquest cas.

Interpretació

La raó de versemblança és un estadístic, ja que és una funció de les dades $x$ . La prova de raó de versemblança rebutja la hipòtesi nul·la si el valor d'aquest estadístic és massa petit. El significat precís de «petit» depèn del nivell de significació de la prova, és a dir, de quanta probabilitat d'error de tipus I es considera tolerable (els errors de "tipus I" consisteixen en el rebuig d'una hipòtesi nul·la que és certa).

El numerador correspon a la màxima versemblança d'un resultat observat sota la hipòtesi nul·la. El denominador correspon a la màxima versemblança d'un resultat observat quan es varien els paràmetres sobre tot l'espai de paràmetres. El numerador d'aquesta raó és menor que el denominador; per tant, la raó de versemblança és un valor situat entre 0 i 1. Els valors petits de la raó de versemblança signifiquen que el resultat observat era menys probable de succeir sota la hipòtesi nul·la que sota la hipòtesi alternativa. Els valors alts de l'estadístic signifiquen que el resultat observat està prop de ser tant probable de succeir sota la hipòtesi nul·la com de succeir sota la hipòtesi alternativa, i llavora no es pot rebutjar la hipòtesi nul·la.

El test de raó de versemblança necessita models niats: és a dir, models en els quals un de més complex es pot transformar en un de més simple, tot imposant un conjunt de restriccions sobre els paràmetres. Si els models no són niats, llavors es pot fer servir una generalització de la prova de raó de versemblança: la versemblança relativa.

Distribució: teorema de Wilks

Si la distribució de la raó de versemblança corresponent a unes certes hipòtesis nul·la i alternativa es pot determinar explícitament, llavors es pot utilitzar directament per a configurar regions de decisió (per tal d'acceptar o de rebutjar la hipòtesi nul·la). Tanmateix, en la majoria de casos, és molt difícil determinar la distribució exacta de la raó de versemblança corresponent a unes hipòtesis específiques. Un resultat de Samuel Wilks afirma que, conforme la grandària de la mostra $n$ tendeix a infinit, el test estadístic $-2\log(\Lambda )$ per a un model niat tindrà asimptòticament una distribució $\chi ^{2}$ amb un nombre de graus de llibertat igual a la diferència de les dimensions de $\Theta$ i de $\Theta _{0}$ .^[6] Això significa que, per a una gran quantitat d'hipòtesis, hom pot calcular la raó de versemblança $\Lambda$ per a les dades, i comparar $-2\log(\Lambda )$ amb el valor $\chi ^{2}$ corresponent a una significació estadística desitjada, com a test estadístic aproximat.

Extensions

El teorema de Wilks assumeix que els valors reals, però desconeguts, dels paràmetres estimats pertanyen a l'interior de l'espai de paràmetres. Això acostuma a no complir-se, per exemple, en models d'efectes aleatoris o mixtos quan un dels components de la variància és negligible en relació amb els altres. En alguns d'aquests casos, un component de la variància és essencialment zero en comparació amb els altres, o bé els models no estan niats adequadament. Pinheiro i Bates van demostrar que la distribució real d'aquest estadístic khi quadrat de la raó de versemblança pot ser substancialment diferent d'una $\chi ^{2}$ pura, i de vegades completament diferent.^[7] Aquestes suposicions podrien donar probabilitats de significació (valors p) que fossin massa grans en mitjana en alguns casos i excessivament petits en d'altres.

En general, per comprovar els efectes aleatoris, recomanen utilitzar el mètode anomenat "Versemblança màxima restringida ((anglès) Restricted maximum likelihood, REML). Per tal de comprovar els efectes fixos, «un test de raó de versemblança per ajustos REML no és possible, perquè» si es canvia l'especificació dels efectes fixos, es canvia també el significat dels efectes mixtos, i per tant el model restringit no està niat amb el model més gran.^[8]

Van simular proves igualant una i dues variàncies dels efectes aleatoris a zero. En aquests exemples en particular, els valors p simulats amb k restriccions s'ajustaven per igual a una combinació de $\chi ^{2}(k)$ i $\chi ^{2}(k-1)$ (amb k = 1, $\chi ^{2}(0)$ és 0 amb probabilitat 1. Això significa que una bona aproximació era $0,5\chi ^{2}(1)$ ).

Pinheiro i Bates també van simular proves amb diferents efectes ficos. En un test d'un factor amb 4 nivells (graus de llibertat = 3), van trobar que una combinació 50-50 de $\chi ^{2}(3)$ i $\chi ^{2}(4)$ era un ajust bo per als valors p reals obtinguts mitjançant simulació, i que l'error quan s'emprava $\chi ^{2}(3)$ “no era gaire alarmant.^[9] Tanmateix, en un altre test amb un factor de 15 nivells, van trobar un ajust raonable a $\chi ^{2}(18)$ , 4 graus més de llibertat que els 14 que hom obtindria a partir d'una aplicació directa (i inadequada) del teorema de Wilks, i a més, el valor p simulat era diverses vegades el valor directe de $\chi ^{2}(14)$ .” Van concloure que, per tal de comprovar els efectes fixos, és convenient utilitzar la simulació (addicionalment, van implementar una funció “simulate.lme” en el seu paquet “nlme” per S-PLUS i R que hi donava suport).

En resum, aquestes limitacions del teorema de Wilks no neguen les propietats del poder d'un test de raó de versemblança concret, només l'ús d'una distribució $\chi ^{2}$ per avaluar la seva significació estadística.

Aplicacions

Cadascun dels dos models competidors, el model nul i el model alternatiu, està ajustat de manera separada a les dades i a la log-versemblança registrada. El test estadístic (sovint simbolitzat per D) és el doble del logaritme de la raó de les versemblances, és a dir, és el doble de la diferència de les log-versemblances:

{\begin{aligned}D&=-2\ln \left({\frac {\text{versemblança pel model nul}}{\text{versemblança pel model alternatiu}}}\right)\\&=2\ln \left({\frac {\text{versemblança pel model alternatiu}}{\text{versemblança pel model nul}}}\right)\\&=2\times [\ln({\text{versemblança pel model alternatiu}})\\&\qquad \quad -\ln({\text{versemblança pel model nul}})]\\\end{aligned}}

El model amb més paràmetres (aquí, l'alternatiu) sempre estarà, com a mínim, tan ben ajustat –és a dir, té la mateixa o més gran log-versemblança– com el model amb menys paràmetres (aquí el nul). Per tal de determinar si l'ajust és significativament millor, i per tant per decidir si és el model preferit, cal derivar la probabilitat o valor p de la diferència D. Quan la hipòtesi nul·la representa un cas especial de la hipòtesi alternativa, la distribució de probabilitat de l'estadístic és aproximadament una distribució khi quadrat amb un nombre de graus de llibertat igual a $df\!_{\text{a}}-df\!_{\text{n}}$ ,^[10] on $df\!_{\text{a}}$ representa el nombre de graus de llibertat del model alternatiu i $df\!_{\text{n}}$ representa el nombre de graus de llibertat del model nul.

A continuació es presenta un exemple d'ús. Si el model nul té 1 paràmetre i una log-versemblança de −8024, i el model alternatiu té 3 paràmetres i una log-versemblança de −8012, llavors la probabilitat d'aquesta diferència és la d'un valor khi quadrat de $2\times (-8012-(-8024))=24$ amb $3-1=2$ graus de llibertat, i és igual a $6\times 10^{-6}$ . Cal fer certes suposicions^[6] per tal que l'estadístic segueixi una distribució khi quadrat, i sovint es calculen valors p de manera empírica.

Exemples

Llençament d'una moneda

Un exemple, en el cas del test de Pearson, és comparar dues monedes per determinar si tenen la mateixa probabilitat de sortir "cara". Les observacions es poden plantejar en una taula de contingència, on les files representen cadascuna de les monedes, i les columnes corresponen a "cara" o "creu". Els elements de la taula de contingència seran el nombre de vegades que la moneda d'aquella fila ha tret cara o creu. El contingut d'aquesta taula són les observacions $X$ .

{\begin{array}{c|cc}X&{\text{Cara}}&{\text{Creu}}\\\hline {\text{Moneda 1}}&k_{\mathrm {1H} }&k_{\mathrm {1T} }\\{\text{Moneda 2}}&k_{\mathrm {2H} }&k_{\mathrm {2T} }\end{array}}

Aquí, $\Theta$ consisteix en les combinacions possibles de valors dels paràmetres $p_{\mathrm {1H} }$ , $p_{\mathrm {1T} }$ , $p_{\mathrm {2H} }$ i $p_{\mathrm {2T} }$ , que són la probabilitat que els llençaments de les monedes 1 i 2 resultin en cara o en creu. Denotem $i=1,2$ i $j=\mathrm {H,T}$ . L'espai d'hipòtesi $H$ està restringit per les restriccions habituals d'una distribució de probabilitat, $0\leq p_{ij}\leq 1$ i $p_{i\mathrm {H} }+p_{i\mathrm {T} }=1$ . L'espai de la hipòtesi nul·la $H_{0}$ és el subespai on $p_{1j}=p_{2j}$ . Si s'escriu $n_{ij}$ per als millors valors de $p_{ij}$ sota la hipòtesi $H$ , l'estimació màxim versemblant ve donat per:

n_{ij}={\frac {k_{ij}}{k_{i\mathrm {H} }+k_{i\mathrm {T} }}}

.

De la mateixa manera, les estimacions màxim versemblants de $p_{ij}$ sota la hipòtesi nul·la $H_{0}$ és:

m_{ij}={\frac {k_{1j}+k_{2j}}{k_{\mathrm {1H} }+k_{\mathrm {2H} }+k_{\mathrm {1T} }+k_{\mathrm {2T} }}}

,

que no depèn de la moneda $i$ .

Les hipòtesis es poden reescriure lleugerament, de tal manera que satisfacin les restriccions per tal que el logaritme de la raó de versemblança tingui una certa distribució desitjada. Com que les restriccions provoquen que l'espai bidimensional $H$ es redueixi a un espai unidimensional $H_{0}$ , la distribució asimptòtica del test serà $\chi ^{2}(1)$ , la distribució $\chi ^{2}$ amb un grau de llibertat.

Per a la taula de contingència general, hom pot escriure l'estadístic de raó de log-versemblança com:

-2\log \Lambda =2\sum _{i,j}k_{ij}\log {\frac {n_{ij}}{m_{ij}}}

.

Referències

↑ ^1,0 ^1,1 Neyman i Pearson, 1933.
↑ Mood i Graybill, 1963, p. 286.
↑ Stuart, Ord i Arnold, 1999, Chapter 22.
↑ Cox i Hinkley, 1974, p. 92.
↑ Casella i Berger, 2001, p. 375.
↑ ^6,0 ^6,1 Wilks, 1938.
↑ Pinheiro i Bates, 2000.
↑ Pinheiro i Bates, 2000, p. 87.
↑ Pinheiro i Bates, 2000, p. 88.
↑ Huelsenbeck i Crandall, 1997.

Bibliografia

Casella, George; Berger, Roger L. Statistical Inference. 2a edició. Duxbury Press, 2001. ISBN 0-534-24312-6.
Cox, D. R.; Hinkley, D. V.. Theoretical Statistics. Chapman and Hall, 1974. ISBN 0-412-12420-3.
Huelsenbeck, J. P.; Crandall, K. A. «Phylogeny Estimation and Hypothesis Testing Using Maximum Likelihood». Annual Review of Ecology and Systematics, 28, 1997, pàg. 437–466. DOI: 10.1146/annurev.ecolsys.28.1.437.
Mood, A.M.; Graybill, F.A.. Introduction to the Theory of Statistics. 2a edició. McGraw-Hill, 1963. ISBN 978-0070428638.
Neyman, Jerzy; Pearson, Egon S. «On the Problem of the Most Efficient Tests of Statistical Hypotheses» ( PDF). Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 231, 694–706, 1933, pàg. 289–337. Bibcode: 1933RSPTA.231..289N. DOI: 10.1098/rsta.1933.0009. JSTOR: 91247.
Pinheiro, José C.; Bates, Douglas M. Mixed-Effects Models in S and S-PLUS. Springer-Verlag, 2000, p. 82–93. ISBN 0-387-98957-9.
Stuart, A.; Ord, K.; Arnold, S. Kendall's Advanced Theory of Statistics. 2A. Arnold, 1999.
Wilks, S. S. «The Large-Sample Distribution of the Likelihood Ratio for Testing Composite Hypotheses». The Annals of Mathematical Statistics, 9, 1938, pàg. 60–62. DOI: 10.1214/aoms/1177732360.

Enllaços externs

Descripció d'una aplicació pràctica del test de raó de versemblança
R Package: Wald's Sequential Probability Ratio Test Arxivat 2016-03-09 a Wayback Machine. PDF
Richard Lowry's Predictive Values and Likelihood Ratios Arxivat 2015-05-04 a Wayback Machine. Online Clinical Calculator

[FOOTNOTENeymanPearson1933-1] 1,0 ^1,1 Neyman i Pearson, 1933.

[FOOTNOTEMoodGraybill1963286-2] Mood i Graybill, 1963, p. 286.

[FOOTNOTEStuartOrdArnold1999Chapter_22-3] Stuart, Ord i Arnold, 1999, Chapter 22.

[FOOTNOTECoxHinkley197492-4] Cox i Hinkley, 1974, p. 92.

[FOOTNOTECasellaBerger2001375-5] Casella i Berger, 2001, p. 375.

[FOOTNOTEWilks1938-6] 6,0 ^6,1 Wilks, 1938.

[FOOTNOTEPinheiroBates2000-7] Pinheiro i Bates, 2000.

[FOOTNOTEPinheiroBates200087-8] Pinheiro i Bates, 2000, p. 87.

[FOOTNOTEPinheiroBates200088-9] Pinheiro i Bates, 2000, p. 88.

[FOOTNOTEHuelsenbeckCrandall1997-10] Huelsenbeck i Crandall, 1997.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]