Vés al contingut

Mesura de dispersió

De la Viquipèdia, l'enciclopèdia lliure
Exemple de mostres de dues poblacions amb la mateixa mitjana però diferent dispersió. La població blava està molt més dispersa que la població vermella.

Les mesures de dispersió, també anomenades mesures de variabilitat, mostren la variabilitat d'una distribució, indicant per mitjà d'un nombre, si les diferents puntuacions d'una variable estan molt allunyades de la mitjana. Com més gran sigui aquest valor, major serà la variabilitat, com més petit sigui, més homogènia serà a la mitjana. Així se sap si tots els casos són semblants o varien molt entre ells.[1]

Per calcular la variabilitat que una distribució té respecte de la seva mitjana, es calcula la mitjana de les desviacions de les puntuacions respecte a la mitjana aritmètica. Però la suma de les desviacions és sempre zero, així que s'adopten dues classes d'estratègies per salvar aquest problema. Una és prenent les desviacions en valor absolut (desviació mitjana) i una altra és prenent les desviacions al quadrat (variància).

Rang estadístic

[modifica]

El rang o recorregut estadístic és la diferència entre el valor mínim i el valor màxim en un grup de nombres aleatoris. Se'l sol representar amb R.[1][2]

Requisits del rang

[modifica]
  • Ordenem els nombres segons la seva mida.
  • Restem el valor mínim del valor màxim.

Exemple

[modifica]

Per a una mostra (0, 45, 50, 55, 100), la dada menor és 0 i la dada més gran és 100 (valor unitari immediatament posterior a la dada major menys la dada menor). Els seus valors es troben en un rang de:

Rang = (100-0) = 100

El rang mitjà d'un conjunt de valors numèrics és la mitjana del menor i major valor, o la meitat del camí entre la dada de menor valor i la dada de major valor. En conseqüència el rang mitjà és:

Exemple

Per a una mostra de valors (3, 3, 5, 6, 8), la dada de menor valor Min = 3 i la dada de major valor Max = 8. El rang mitjà resolt mitjançant la corresponent fórmula seria:

Representació del rang mitjà: Rang mitjà

La variància, també anomenada variància, és una mesura estadística que mesura la dispersió dels valors respecte a un valor central (mitjana), és a dir, la mitjana de les diferències quadràtiques de les puntuacions respecte a la seva mitjana aritmètica. Sol ser representada amb la lletra grega σ o una V en majúscula.[2][3]

Propietats

[modifica]
  • La variància és sempre positiva o 0:
  • Si les dades de la distribució les sumem una quantitat constant la variància no es modifica.

  • Si les dades de la distribució les multipliquem una constant, la variància queda multiplicada pel quadrat d'aquesta constant.

  • Propietat distributiva:

La variància de vegades no s'interpreta clarament, ja que es mesura en unitats quadràtiques. Per evitar aquest problema es defineix una altra mesura de dispersió, que és la desviació típica, o desviació estàndard, que es troba com l'arrel quadrada positiva de la variància.[2][4] La desviació típica informa sobre la dispersió de les dades respecte al valor de la mitjana; com més gran sigui el seu valor, més dispersos estaran les dades. Aquesta mesura ve representada en la majoria dels casos per S, atès que és la seva inicial de la seva nominació en anglès.

Desviació típica mostral

[modifica]

Desviació típica poblacional

[modifica]

Exemple

Amb Scilab aquest càlcul es fa de la següent manera:

→ X = [17 14 2 5 8 7 6 8 5 4 3 15 9]
 x =

 17. 14. 2. 5. 8. 7. 6. 8. 5. 4. 3. 15. 9.

→ Stdev (x)
 ans =

 4.716311

Primer hem declarat un vector amb nom X, en què introdueixo els nombres de la sèrie. Després amb la comanda stdev es trobarà la desviació típica.

La covariància entre dues variables és un estadístic resum indicador de si les puntuacions estan relacionades entre si. La formulació clàssica, es simbolitza per la lletra grega sigma (σ) quan ha estat calculada en la població. Si s'obté sobre una mostra, es designa per la lletra "s_{xy}".

La formula sol aparèixer expressada com:[5]

Aquest tipus d'estadístic pot utilitzar-se per mesurar el grau de relació entre dues variables si ambdues utilitzen una escala de mesura a nivell d'interval/raó (variables quantitatives).

L'expressió es resol mitjançant el producte de les puntuacions diferencials per la seva grandària mostral (n parells de puntuacions, n-1 en la seva forma no esbiaixada). Aquest estadístic, reflecteix la relació lineal que existeix entre dues variables. El resultat numèric fluctua entre els rangs de+infinit a-infinit. Com que no té uns límits establerts, no pot determinar el grau de relació lineal que existeix entre les dues variables, només és possible veure la tendència.

Exemple

Tenim una taula amb dues dades (xyh), elaborem la seva taula de freqüències (fre)

→ X = [10 20 30 40] Vector de dades X
 x =

 10. 20. 30. 40.

→ I = [10 20 30 40] Vector de dades H
 i =

 10. 20. 30. 40.

→ Fre = [20 04 01 0; Matriu de freqüències
→ 10 36 09 0;
→ 0 05 10 0;
→ 0 0 0 05]
 fre =

 0,2 0,04 0,01 0.
 0,1 0,36 0,09 0.
 0. 0,05 0,1 0.
 0. 0. 0. 0,05

→ S = covar (x, y, fre) Aplicació del Comando covar
 s =

 49.

Coeficient de Correlació de Pearson

[modifica]

El coeficient de correlació de Pearson, r, permet saber si l'ajust del núvol de punts a la recta de regressió obtinguda és satisfactori. Es defineix com el quocient entre la covariància i el producte de les desviacions típiques (arrel quadrada de les variàncies).

Tenint en compte el valor de la covariància i les variàncies, es pot avaluar mitjançant qualsevol de les dues expressions següents:


Propietats

[modifica]
  • El coeficient de correlació, r, presenta valors entre -1 i+1.[6]
  • Quan r és proper a 0, no hi ha correlació lineal entre les variables. El núvol de punts està molt dispersa o bé no forma una línia recta. No es pot traçar una recta de regressió.
  • Quan r és proper a+1, hi ha una bona correlació positiva entre les variables segons un model lineal i la recta de regressió que es determini tindrà pendent positiu, serà creixent.
  • Quan r és proper a -1, hi ha una bona correlació negativa entre les variables segons un model lineal i la recta de regressió que es determini tindrà pendent negatiu: és decreixent.

Tipus de correlació

Exemple

[modifica]

Tenim una taula amb dues dades (xyh), elaborem la seva taula de freqüències (fre)

→ X = [2/5 7/5 12/5 17/5] Vector de dades X

x =
2.5 7.5 12.5 17.5

→ H = [0 1 2] Vector de dades H

h =
0. 1. 2.

→ Fre = [03 12 07; 02 13 11; 01 13 14; 01 09 14] Matriu de freqüències

fre =
0,03 0,12 0,07
0,02 0,13 0,11
0,01 0,13 0,14
0,01 0,09 0,14

→ Rho = correlatius (x, h, fre) Aplicació del Comando Correl

rho =
0.2097870c

Referències

[modifica]
  1. 1,0 1,1 «Medidas de dispersión» (en castellà). [Consulta: 24 gener 2022].
  2. 2,0 2,1 2,2 «Medidas de dispersión» (en castellà). [Consulta: 24 gener 2022].
  3. «Medidas de Dispersion» (en castellà). [Consulta: 24 gener 2022].
  4. Thakur, Aryan. «Measures of Dispersion - Types, Examples & Applications» (en anglès americà), 18-02-2021. [Consulta: 11 febrer 2022].
  5. http://www.ccg.unam.mx/~vinuesa/, Pablo Vinuesa, CCG-UNAM. «Tema 8 - Correlación: teoría y práctica». [Consulta: 19 febrer 2022].
  6. «What Is the Pearson Coefficient?» (en anglès). [Consulta: 19 febrer 2022].

Vegeu també

[modifica]