En Estadística, la distribució T² de Hotelling és una distribució univariant proporcional a la distribució F, important a distribució d'un conjunt d'estadístics que són generalitzacions naturals dels estadístics subjacents a la distribució t de Student. En particular, la distribució apareix en estadística multivariant en les proves de les diferències entre mitjanes (multivariants) de diferents poblacions, que en el cas de proves univariants es faria ús d'una prova t.
La distribució és el nom de Harold Hotelling, qui la va desenvolupar com una generalització de la distribució t de Student.[1]
Si el vector pd1 es distribueix segons una distribució gaussiana multivariant mitja zero i matriu de covariància N(p01, pIp) i mMp és una matriu pxp amb una distribució de Wishart amb matriu escala unitat i m graus de llibertat W(pIp, m), llavors m(1d'pM – 1pd1) segueix una distribució T² de Hotelling amb paràmetre de dimensionalitat p i m graus de llibertat.[2]
Si s'utilitza la notació
per representar una variable aleatòria amb distribució T quadrat de Hotelling amb paràmetres p i m llavors, si una variable aleatòria X segueix una distribució T quadrat de Hotelling,

llavors[1]

on Fp; m – p + 1 es la distribució F amb paràmetres p i m – p + 1.
L'estadístic T² de Hotelling és una generalització de l'estadístic t de Student que s'utilitza en proves d’hipòtesis multivariants i es defineix com:[1]
Sigui
una p-variable normal amb mitja
i covariància
. Siguin

n variables aleatòries independents, que es poden representar com a
vectors columnes de valors reals i

la mitja mostral.
Es pot demostrar que

on
és la distribució khi quadrat amb p graus de llibertat.
Per mostrar-ho partim del fet que
i deduïm la funció característica de la variable aleatòria
tal com segueix,






Ara bé,
sovint és desconeguda i volem fer proves d’hipòtesi sobre la posició
.
Sigui

la covariància mostral. Es pot demostrar que (aquí la trasposta es representa com a apòstrofe)
és una matriu positiva (semi) definida i
segueix una distribució de Wishart p-variada amb n – 1 graus de llibertat.[3] L'estadístic T² de Hotelling es defineix, doncs, com a:[4]

i, com abans,

és a dir

on Fp; n – p es la distribució F amb paràmetres p i n – p. Per calcular un valor P cal multiplicar l'estadistic t² per l’anterior constant i fer servir la distribució F.
Estadístic T ² de Hotelling per a dues mostres
[modifica]
Si
,
, i les mostres provenen de dues distribucions normals multivariades independents amb la mateixa mitja i covariàncies, i es defineix

com les mitjanes mostrals, i

com la matriu de covariància conjunta no esbiaixada estimada, llavors l'estadistic T² per a dues mostres és

que es pot relacionar amb la distribució F[3]

La distribució no nul·la d’aquest estadístic es la distribució F no central (el quocient entre una variable aleatòria khi quadrat no central i una variable aleatòria khi quadrat central independent)

amb

on
és el vector diferència entre les mitjanes poblacionals.
S'han proposat proves més robustos i potents que la prova de Hotelling per a dues mostres, veure per exemple les proves basades en la distància emtre punts que es poden aplicar també quan el nombre de variables és comparable o fins i tot més gran que el nombre d’objectes.[5][6]
En el cas de dues variables la fórmula es simplifica i permet visualitzar com la correlació
entre les variables influeix sobre
. Si es defineix

i

llavors
![{\displaystyle t^{2}={\frac {n_{x}n_{y}}{(n_{x}+n_{y})(1-r^{2})}}\left[\left({\frac {d_{1}}{SD_{1}}}\right)^{2}+\left({\frac {d_{2}}{SD_{2}}}\right)^{2}-2r\left({\frac {d_{1}}{SD_{1}}}\right)\left({\frac {d_{2}}{SD_{2}}}\right)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/37e2a6fd491af96a226ed191b622242a81863f20)
Si les diferències entre dos files del vector
tenen el mateix signe llavors, en general
és més petit a mesura que
es més positiu. Si les diferències son de signe oposat
és més gran a mesura que
és més positiu.
Prokhorov, A.V. (2001), "Hotelling T²-distribution", a Hazewinkel, M. "Encyclopedia of Mathematics". New York (NY): Springer, ISBN 978-1-55608-010-4
- ↑ 1,0 1,1 1,2 Hotelling, H «The generalization of Student's ratio». Annals of Mathematical Statistics, 2(3), 1931, pàg. 360 - 378. DOI: 10.1214/aoms/1177732979.
- ↑ Weisstein, E. W. CRC Concise Encyclopedia of Mathematics. 2ª Ed. Boca Raton (FL): Chapman & Hall/CRC, 2003.
- ↑ 3,0 3,1 Mardia, K. V.; Kent, J. T.; Bibby, J. M. Multivariate Analysis. New York (NY): Academic Press, 1979. ISBN 0-12-471250-9.
- ↑ «Hotelling's T Square». Engineering Statistics Handbook. [Consulta: 3 febrer 2016].
- ↑ Marozzi, M. «Multivariate tests based on interpoint distances with application to magnetic resonance imaging». A: Statistical Methods in Medical Research, 2014. DOI 10.1177/0962280214529104.
- ↑ Marozzi, M. «"Multivariate multidistance tests for high-dimensional low sample size case-control studies». A: Statistics in Medicine. 34, 2015. DOI 10.1002/sim.6418.
|
---|
|
Distribucions discretes amb suport finit | |
---|
Distribucions discretes amb suport infinit | |
---|
Distribucions contínues suportades sobre un interval acotat | |
---|
Distribucions contínues suportades sobre un interval semi-infinit | |
---|
Distribucions contínues suportades en tota la recta real | |
---|
Distribucions contínues amb el suport de varis tipus | |
---|
Barreja de distribució variable-contínua | |
---|
Distribució conjunta | |
---|
Direccionals | |
---|
Degenerada i singular | |
---|
Famílies | |
---|