Anàlisi de correspondències
A estadística multivariant, l'anàlisi de correspondències ((anglès) Correspondence analysis, CA) és una tècnica descriptiva proposada[1] per Hirschfeld[2] i posteriorment desenvolupada per Jean-Paul Benzécri.[3]
Totes les dades han de ser no-negatives i en la mateixa escala per tal de poder aplicar l'anàlisi de correspondències, i el mètode tracta les files i les columnes de forma equivalent. Se sol aplicar a l'estudi de taules de contingència i és conceptualment similar a l'anàlisi de components principals amb la diferència que en l'anàlisi de correspondències les dades s'escalen de manera que files i columnes es tracten de manera equivalent. És una manera de visualitzar o resumir un conjunt de dades en una representació de dues dimensions.
L'anàlisi de correspondències descompon l'estadístic del test de la khi-quadrat associat a una taula de contingència en components ortogonals.[4] Atès que es tracta d'una tècnica descriptiva, es pot aplicar fins i tot en circumstàncies en què l'estadístic no és apropiat.[4][5]
Detalls
[modifica]Igual que l'anàlisi de components principals, l'anàlisi de correspondències crea components ortogonals i, per a cada element d'una taula, crea un conjunt de puntuacions (de vegades anomenats puntuacions de factors). L'anàlisi de correspondències es realitza sobre una taula de contingència C, de grandària m×n on m és el nombre de files i n el nombre de columnes.
Preprocessament
[modifica]A partir d'una taula C, es calcula un conjunt de pesos per a les columes i les files,[4][5] on els pesos de les files són
i els pesos de les columnes són
- .
A continuació, es calcula una taula S (anomenada matriu estocàstica), on C es divideix per la suma de C
- .
Finalment, es calcula una taula M a partir de S i dels pesos:
- .
Components ortogonals
[modifica]Llavors es descompon la taula M mitjançant la descomposició en valors singulars generalitzats, on els vectors singulars per l'esquerra i per la dreta estan restringits pels pesos. Els pesos són taules diagonals
i
on els elements de la diagonal de són i els de fora de la diagonal són 0.
Llavors s'obté la descomposició de M:
on
- .
Puntuació de factors
[modifica]Les puntuacions de factors per als elements fila de la taula C són
i pels elements columna
- .
Extensions i aplicacions
[modifica]Existeixen diverses variants de l'anàlisi de correspondències, incloent-hi l'anàlisi de correspondències amb eliminació de la tendència ((anglès) detrended correspondence analysis, DCA) i l'anàlisi de correspondències canòniques ((anglès) canonical correspondence analysis, CCA). L'extensió de l'anàlisi de correspondències a més d'una variable categòrica s'anomena anàlisi de correspondències múltiple. Una adaptació de l'anàlisi de correspondències al problema de discriminació basat en variables qualitatives (és a dir, l'equivalent de l'anàlisi discriminant per a dades qualitatives) s'anomena anàlisi de correspondències discriminant o anàlisi discriminant baricèntric.
En ciències socials, l'anàlisi de correspondències, i en particular l'anàlisi de correspondències múltiple, es va donar a conéixer fora de França pel sociòleg francès Pierre Bourdieu.[6]
Implementacions
[modifica]- El sistema de visualització de dades Orange inclou el mòdul: orngCA.
- El sistema estadístic R inclou els paquets:
ade4
,ca
,vegan
,ExPosition
iFactoMineR
, que realitzen anàlisi de correspondències i anàlisi de correspondències múltiples.[7]
Referències
[modifica]- ↑ Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP ISBN 0-19-850994-4
- ↑ Hirschfeld, H.O. (1935) "A connection between correlation and contingency", Proc. Cambridge Philosophical Society, 31, 520–524
- ↑ Benzécri, J.-P.. L'Analyse des Données. Volume II. L'Analyse des Correspondances. Paris, France: Dunod, 1973.
- ↑ 4,0 4,1 4,2 Greenacre, Michael. Theory and Applications of Correspondence Analysis. London: Academic Press, 1983. ISBN 0-12-299050-1.
- ↑ 5,0 5,1 Greenacre, Michael. Correspondence Analysis in Practice, Second Edition. Londres: Chapman & Hall/CRC, 2007.
- ↑ Bourdieu, Pierre. Distinction. Routledge, 1984, p. 41. ISBN 0674212770.
- ↑ orngCA
Vegeu també
[modifica]Enllaços externs
[modifica]- Greenacre, Michael (2008), La Práctica del Análisis de Correspondencias, BBVA Foundation, Madrid, Spanish translation of Correspondence Analysis in Practice, available for free download from BBVA Foundation publications Arxivat 2010-03-25 a Wayback Machine.
- Greenacre, Michael (2010), Biplots in Practice, BBVA Foundation, Madrid, available for free download at multivariatestatistics.org