Distribució T quadrat de Hotelling

Distribució T² de Hotelling
	Funció de densitat de probabilitat
	Funció de distribució de probabilitat
Tipus	concepte matemàtic
Epònim	Harold Hotelling
Paràmetres	p - dimensió de les variables aleatòries ; m - relacionat amb la mida de la mostra
Suport	si ; en altres casos.
EOM	Hotelling-T%5E2-distribution
Mathworld	HotellingT-SquaredDistribution

En Estadística, la distribució T² de Hotelling és una distribució univariant proporcional a la distribució F, important a distribució d'un conjunt d'estadístics que són generalitzacions naturals dels estadístics subjacents a la distribució t de Student. En particular, la distribució apareix en estadística multivariant en les proves de les diferències entre mitjanes (multivariants) de diferents poblacions, que en el cas de proves univariants es faria ús d'una prova t.

La distribució és el nom de Harold Hotelling, qui la va desenvolupar com una generalització de la distribució t de Student.^[1]

La distribució

Si el vector _pd₁ es distribueix segons una distribució gaussiana multivariant mitja zero i matriu de covariància N(_p0₁, _pI_p) i _mM_p és una matriu pxp amb una distribució de Wishart amb matriu escala unitat i m graus de llibertat W(_pI_p, m), llavors m(₁d'_pM ^{– 1}_pd₁) segueix una distribució T² de Hotelling amb paràmetre de dimensionalitat p i m graus de llibertat.^[2]

Si s'utilitza la notació $T_{p,m}^{2}$ per representar una variable aleatòria amb distribució T quadrat de Hotelling amb paràmetres p i m llavors, si una variable aleatòria X segueix una distribució T quadrat de Hotelling,

X\sim T_{p,m}^{2}

llavors^[1]

{\frac {m-p+1}{pm}}X\sim F_{p,m-p+1}

on F_{p; m – p + 1} es la distribució F amb paràmetres p i m – p + 1.

Estadístic T ² de Hotelling

L'estadístic T² de Hotelling és una generalització de l'estadístic t de Student que s'utilitza en proves d’hipòtesis multivariants i es defineix com:^[1]

Sigui ${\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })$ una p-variable normal amb mitja ${\boldsymbol {\mu }}$ i covariància ${\mathbf {\Sigma } }$ . Siguin

{\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } })

n variables aleatòries independents, que es poden representar com a $p\times 1$ vectors columnes de valors reals i

{\overline {\mathbf {x} }}={\frac {\mathbf {x} _{1}+\cdots +\mathbf {x} _{n}}{n}}

la mitja mostral. Es pot demostrar que

n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})\sim \chi _{p}^{2},

on $\chi _{p}^{2}$ és la distribució khi quadrat amb p graus de llibertat.

Per mostrar-ho partim del fet que ${\overline {\mathbf {x} }}\sim {\mathcal {N}}_{p}({\boldsymbol {\mu }},{\mathbf {\Sigma } }/n)$ i deduïm la funció característica de la variable aleatòria $\mathbf {y} =n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})$ tal com segueix,

\phi _{\mathbf {y} }(\theta )=\operatorname {E} e^{i\theta \mathbf {y} },

=\operatorname {E} e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}

$=\int e^{i\theta n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {\Sigma } }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})}(2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\boldsymbol {\Sigma }}^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p}$

=\int (2\pi )^{-{\frac {p}{2}}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p},

=|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{\frac {1}{2}}|{\boldsymbol {\Sigma }}/n|^{-{\frac {1}{2}}}\int (2\pi )^{-{\frac {p}{2}}}|({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})^{-1}/n|^{-{\frac {1}{2}}}\,e^{-{\frac {1}{2}}n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'({\boldsymbol {\Sigma }}^{-1}-2i\theta {\boldsymbol {\Sigma }}^{-1})({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})}\,dx_{1}...dx_{p},

=|(\mathbf {I} _{p}-2i\theta \mathbf {I} _{p})|^{-{\frac {1}{2}}},

=(1-2i\theta )^{-{\frac {p}{2}}}.

Ara bé, ${\mathbf {\Sigma } }$ sovint és desconeguda i volem fer proves d’hipòtesi sobre la posició ${\boldsymbol {\mu }}$ .

Suma de p t quadrats

Sigui

{\mathbf {W} }={\frac {1}{n-1}}\sum _{i=1}^{n}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'

la covariància mostral. Es pot demostrar que (aquí la trasposta es representa com a apòstrofe) $\mathbf {W}$ és una matriu positiva (semi) definida i $(n-1)\mathbf {W}$ segueix una distribució de Wishart p-variada amb n – 1 graus de llibertat.^[3] L'estadístic T² de Hotelling es defineix, doncs, com a:^[4]

t^{2}=n({\overline {\mathbf {x} }}-{\boldsymbol {\mu }})'{\mathbf {W} }^{-1}({\overline {\mathbf {x} }}-{\boldsymbol {\mathbf {\mu } }})

i, com abans,

t^{2}\sim T_{p,n-1}^{2}

és a dir

{\frac {n-p}{p(n-1)}}t^{2}\sim F_{p,n-p},

on F_{p; n – p} es la distribució F amb paràmetres p i n – p. Per calcular un valor P cal multiplicar l'estadistic t² per l’anterior constant i fer servir la distribució F.

Estadístic T ² de Hotelling per a dues mostres

Si ${\mathbf {x} }_{1},\dots ,{\mathbf {x} }_{n_{x}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {V} })$ , ${\mathbf {y} }_{1},\dots ,{\mathbf {y} }_{n_{y}}\sim N_{p}({\boldsymbol {\mu }},{\mathbf {V} })$ , i les mostres provenen de dues distribucions normals multivariades independents amb la mateixa mitja i covariàncies, i es defineix

{\overline {\mathbf {x} }}={\frac {1}{n_{x}}}\sum _{i=1}^{n_{x}}\mathbf {x} _{i}\qquad {\overline {\mathbf {y} }}={\frac {1}{n_{y}}}\sum _{i=1}^{n_{y}}\mathbf {y} _{i}

com les mitjanes mostrals, i

{\mathbf {W} }={\frac {\sum _{i=1}^{n_{x}}(\mathbf {x} _{i}-{\overline {\mathbf {x} }})(\mathbf {x} _{i}-{\overline {\mathbf {x} }})'+\sum _{i=1}^{n_{y}}(\mathbf {y} _{i}-{\overline {\mathbf {y} }})(\mathbf {y} _{i}-{\overline {\mathbf {y} }})'}{n_{x}+n_{y}-2}}

com la matriu de covariància conjunta no esbiaixada estimada, llavors l'estadistic T² per a dues mostres és

t^{2}={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})'{\mathbf {W} }^{-1}({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})\sim T^{2}(p,n_{x}+n_{y}-2)

que es pot relacionar amb la distribució F^[3]

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p).

La distribució no nul·la d’aquest estadístic es la distribució F no central (el quocient entre una variable aleatòria khi quadrat no central i una variable aleatòria khi quadrat central independent)

{\frac {n_{x}+n_{y}-p-1}{(n_{x}+n_{y}-2)p}}t^{2}\sim F(p,n_{x}+n_{y}-1-p;\delta ),

amb

\delta ={\frac {n_{x}n_{y}}{n_{x}+n_{y}}}{\boldsymbol {\nu }}'\mathbf {V} ^{-1}{\boldsymbol {\nu }},

on ${\boldsymbol {\nu }}$ és el vector diferència entre les mitjanes poblacionals.

S'han proposat proves més robustos i potents que la prova de Hotelling per a dues mostres, veure per exemple les proves basades en la distància emtre punts que es poden aplicar també quan el nombre de variables és comparable o fins i tot més gran que el nombre d’objectes.^[5]^[6]

En el cas de dues variables la fórmula es simplifica i permet visualitzar com la correlació $r$ entre les variables influeix sobre $t^{2}$ . Si es defineix

d_{1}={\overline {x}}_{.1}-{\overline {y}}_{.1},\qquad d_{2}={\overline {x}}_{.2}-{\overline {y}}_{.2}

i

SD_{1}={\sqrt {W_{11}}}\qquad SD_{2}={\sqrt {W_{22}}}

llavors

t^{2}={\frac {n_{x}n_{y}}{(n_{x}+n_{y})(1-r^{2})}}\left[\left({\frac {d_{1}}{SD_{1}}}\right)^{2}+\left({\frac {d_{2}}{SD_{2}}}\right)^{2}-2r\left({\frac {d_{1}}{SD_{1}}}\right)\left({\frac {d_{2}}{SD_{2}}}\right)\right]

Si les diferències entre dos files del vector $({\overline {\mathbf {x} }}-{\overline {\mathbf {y} }})$ tenen el mateix signe llavors, en general $t^{2}$ és més petit a mesura que $r$ es més positiu. Si les diferències son de signe oposat $t^{2}$ és més gran a mesura que $r$ és més positiu.

Vegeu també

Distribució t de Student
Distribució F
Distribució lambda de Wilks (en estadística multivariant λ de Wilks és a T² de Hotelling com F de Snedecor és a t d'Student en estadística univariada).

Bibliografia

Prokhorov, A.V. (2001), "Hotelling T²-distribution", a Hazewinkel, M. "Encyclopedia of Mathematics". New York (NY): Springer, ISBN 978-1-55608-010-4

Referències

↑ ^1,0 ^1,1 ^1,2 Hotelling, H «The generalization of Student's ratio». Annals of Mathematical Statistics, 2(3), 1931, pàg. 360 - 378. DOI: 10.1214/aoms/1177732979.
↑ Weisstein, E. W. CRC Concise Encyclopedia of Mathematics. 2ª Ed. Boca Raton (FL): Chapman & Hall/CRC, 2003.
↑ ^3,0 ^3,1 Mardia, K. V.; Kent, J. T.; Bibby, J. M. Multivariate Analysis. New York (NY): Academic Press, 1979. ISBN 0-12-471250-9.
↑ «Hotelling's T Square». Engineering Statistics Handbook. [Consulta: 3 febrer 2016].
↑ Marozzi, M. «Multivariate tests based on interpoint distances with application to magnetic resonance imaging». A: Statistical Methods in Medical Research, 2014. DOI 10.1177/0962280214529104.
↑ Marozzi, M. «"Multivariate multidistance tests for high-dimensional low sample size case-control studies». A: Statistics in Medicine. 34, 2015. DOI 10.1002/sim.6418.

[:0-1] 1,0 ^1,1 ^1,2 Hotelling, H «The generalization of Student's ratio». Annals of Mathematical Statistics, 2(3), 1931, pàg. 360 - 378. DOI: 10.1214/aoms/1177732979.

[2] Weisstein, E. W. CRC Concise Encyclopedia of Mathematics. 2ª Ed. Boca Raton (FL): Chapman & Hall/CRC, 2003.

[:1-3] 3,0 ^3,1 Mardia, K. V.; Kent, J. T.; Bibby, J. M. Multivariate Analysis. New York (NY): Academic Press, 1979. ISBN 0-12-471250-9.

[4] «Hotelling's T Square». Engineering Statistics Handbook. [Consulta: 3 febrer 2016].

[5] Marozzi, M. «Multivariate tests based on interpoint distances with application to magnetic resonance imaging». A: Statistical Methods in Medical Research, 2014. DOI 10.1177/0962280214529104.

[6] Marozzi, M. «"Multivariate multidistance tests for high-dimensional low sample size case-control studies». A: Statistics in Medicine. 34, 2015. DOI 10.1002/sim.6418.

[1]

[2]

[3]

[4]

[5]

[6]

Distribucions de probabilitat
Llista
Distribucions discretes amb suport finit	Benford Bernoulli Beta-binomial Binomial Binomial de Poisson Categòrica Hipergeomètrica Rademacher Uniforme discreta Zipf Zipf-Mandelbrot
Distribucions discretes amb suport infinit	Beta-binomial negativa Binomial negativa estesa Borel Conway-Maxwell-Poisson Delaporte Tipus fase Fractal parabòlica Gauss-Kuzmin Geomètrica Logarítmica Poisson mixta Skellam Yule-Simon Zeta
Distribucions contínues suportades sobre un interval acotat	Arcsinus ARGUS Balding-Nichols Bates Beta no central rectangular Cosinus elevat Irwin-Hall Kumaraswamy Logit-normal Parabòlica PERT Recíproca Triangular Uniforme Wigner
Distribucions contínues suportades sobre un interval semi-infinit	Benini Benktander Beta prima Burr χ χ2 inversa inversa escalada no central Dagum Davis Erlang Exponencial Exponencial-logarítmic F no central Flory-Schulz Fréchet Gamma Gamma/Gompertz Gamma inversa Gaussiana inversa Gaussiana inversa generalitzada Gompertz Gompertz desplaçada Gumbel de tipus II hiper-Erlang Hiperexponencial Hipoexponencial Kolmogórov-Smirnov Lambda de Wilks Lévy Log-Cauchy Log-Laplace Log-logística Log-normal Lomax Matriu exponencial Maxwell-Boltzmann Maxwell-Jüttner Mig-logística Mittag-Leffler Nakagami Normal plegada Normal truncada Pareto Poly-Weibull Rayleigh Relativista de Breit-Wigner Rice Seminormal T² de Hotelling Tipus fase Weibull Discreta de Weibull
Distribucions contínues suportades en tota la recta real	Asimètrica de Laplace Cauchy Estable Geomètrica estable Gumbel Gumbel de tipus I Hiperbòlica generalitzada Hiperbòlica secant Holtsmark Landau Laplace Logística Normal generalitzada Normalinversa de Skew Q gaussiana S_U de Johnson Slash t no central t d'Student Tracy-Widom Variància-gamma Voigt Z de Fisher
Distribucions contínues amb el suport de varis tipus	Lambda de Tukey Log-logística desplaçada Marchenko-Pastur Pareto generalitzada q gaussiana q exponencial q de Weibull Valor extrem generalitzada
Barreja de distribució variable-contínua	Rectificada gaussiana
Distribució conjunta	Discreta Ewens Multinomial Multinomial de Dirichlet Multinomial negativa Contínua Dirichlet Dirichlet generalitzada Estable multivariant Gamma normal Gamma normal inversa Normal multivariable t multivariable Matriu de valor Matriu gamma Matriu gamma inversa Matriu normal Normal de Wishart Normal de Wishart inversa t matriu Wishart Wishart inversa
Direccionals	Univariada (circular) Asimètrica de Laplace envoltada Cauchy envoltada Exponencial envoltada Lévy envoltada Normal envoltada Circular uniforme Univariada de von Mises Bivariada (esfèrica) Kent Bivariada (toroidal) Bivariada de von Mises Multivariada von Mises-Fisher Bingham
Degenerada i singular	Degenerada Delta de Dirac Singular Cantor
Famílies	Barreja Circular Composta de Poisson El·líptica Envoltada Exponencial Exponencial natural Màxima entropia Pearson Tweedie Ubicació-escala