Inferència estadística

La inferència estadística és una part de l'estadística matemàtica que es dedica a deduir possibles resultats d'una població sotmesa a estudi, a partir de l'anàlisi de mostres diverses d'aquesta població.^[1] Un exemple molt típic seria un sondeig electoral, a partir del qual es vol conèixer quin seria el resultat de la votació de tota la població (evidentment amb el seu marge d'error associat).

Existeixen diferents maneres de treballar la inferència estadística. Entre aquestes destaquen:^[2]^[3]^[4]

Estimació de paràmetres
Contrast d'hipòtesis

La primera d'elles consisteix en l'estudi d'un paràmetre estadístic, com per exemple la mitjana aritmètica. En aquest sentit hi ha diferents tipus d'inferència mitjançant l'estimació de paràmetres:

Distribució mostral de les mitjanes
Distribució mostral de les proporcions
Distribució mostral de la diferència de mitjanes
Intervals de confiança^[5]

Distribució mostral de les mitjanes

En aquest cas, com el seu propi nom indica, el paràmetre que s'utilitza de referència és la mitjana.

Suposem una població en la qual estem estudiant un paràmetre caracteritzat per una mitjana (μ) i una desviació típica (σ). Podria ser, per exemple, l'estudi de les alçades d'un grup de persones. Doncs bé, en aquest cas, si agafem mostres de mida (n), essent $n\geq 30$ , es pot considerar que la distribució de mostres segueix una distribució normal caracteritzada per una mitjana igual a la de la població, i una desviació típica igual a la de la població dividida per l'arrel quadrada de n. És a dir:

N\left(\mu ,{\frac {\sigma }{\sqrt {n}}}\right)

D'aquesta manera, qualsevol càlcul de probabilitat que s'hagi de fer per a la distribució de les mostres, es pot fer dins el marc d'una distribució normal.

Distribució mostral de les proporcions

En aquest cas considerem una població que es pot representar mitjançant una distribució binomial B(n,p). El paràmetre en aquest cas és una proporció (tant per cent). Un exemple podria ser una màquina que fabrica peces de precisió, amb un percentatge determinat de peces defectuoses. Si com en el cas anterior agafem mostres de grandària (n), podem considerar que la distribució mostral segueix una normal, caracteritzada per una mitjana (p) i una desviació típica l'arrel quadrada de pq dividit per n. És a dir:

N\left(p,{\sqrt {\frac {pq}{n}}}\right)

Com en el cas anterior, tenim l'avantatge que els càlculs de probabilitat per a la distribució de les mostres, els podem fer per a una distribució normal.

Distribució mostral de la diferència de mitjanes

Suposem que estem fent un estudi comparatiu entre dues poblacions utilitzant la mitjana com a paràmetre. Si agafem mostres de cada població per fer aquest estudi, representarem amb subíndex 1 una de les dues poblacions i amb 2 l'altra. Si $\mu _{1}$ representa la mitjana de les mostres de la primera població, amb mida de mostra n₁, i $\mu _{2}$ la mitjana de les mostres de la segona població, amb mida n₂, podem considerar que la distribució de les mostres segueix una normal caracteritzada per:

N\left(\mu _{1}-\mu _{2},{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}}}\right)

de tal manera que, com en els casos anteriors, podem fer tots els càlculs de probabilitat utilitzant una distribució normal.

Continuant amb el tema de la inferència estadística des de diferents punts de vista, tractarem ara el cas en el qual volem inferir resultats sobre el conjunt d'una població a partir dels resultats obtinguts de mostres preses d'aquesta població. Dins aquest marc hem de dir, que les mostres sempre han de ser prou significatives perquè l'estudi tengui sentit. És a dir, si agafem mostres d'una població de persones per conèixer la intenció de vot a unes eleccions generals, hauríem de fer enquestes a totes les comunitats autònomes, i a més a més amb un rang d'edats ample, quantes més persones d'edats i comunitats diferents millor. Si no és així, els resultats inferits posteriorment sobre la població no tenen molt sentit.

Doncs bé, dins el marc de la inferència estadística mitjançant l'estimació de paràmetres, veurem ara els intervals de confiança. Un interval de confiança és un interval de valors dins el qual estimam que es troba el paràmetre de la població sotmesa a estudi, amb una certa probabilitat fixada prèviament que anomenam N_c (nivell de confiança). Segons el paràmetre estudiat podem considerar els següents intervals:

Interval de confiança de la mitjana

És el següent interval per a la mitjana de la població:

\left(\mu -z_{c}{\frac {\sigma }{\sqrt {n}}};\mu +z_{c}{\frac {\sigma }{\sqrt {n}}}\right)

on μ és la mitjana d'una mostra de mida n i z_c un coeficient que té un valor associat al nivell de confiança considerat (vegeu taula més avall).

Interval de confiança per a la proporció

És el següent interval per a la proporció de la població:

\left(p-z_{c}{\sqrt {\frac {pq}{n}}};p+z_{c}{\sqrt {\frac {pq}{n}}}\right)

on p representa el valor de la proporció en una mostra de mida n, i q=1 - p

Interval de confiança de la diferència de mitjanes

És el cas de l'estudi comparatiu de dues poblacions (població 1 i població 2), en les quals agafem mostres de mitjanes μ₁, μ₂ i mides n₁, n₂. L'interval de confiança per a l'estudi comparatiu de les dues poblacions és:

\left((\mu _{1}-\mu _{2})-z_{c}{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}}};(\mu _{1}-\mu _{2})+z_{c}{\sqrt {{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}}}\right)

que representa l'interval a on es trobarà la diferència de mitjanes poblacionals per a un nivell de confiança donat.

En els tres casos, com hem comentat abans, l'interval està referit a un cert nivell de confiança (probabilitat) que té associat un valor del coeficient z_c. Els més usuals es poden veure a la següent taula:

Valors de z_c corresponents a diferents valors de N_c

N_c(%)	z_c
99,73	3,000
99,00	2,580
98,00	2,330
96,00	2,050
95,45	2,000
95,00	1,960
90,00	1,645

(En aquesta taula, la z_c és la z més petita per la qual el percentatge de probabilitat acumulada és igual a 1 - (1 - N_c) / 2, segons la distribució normal estandarditzada.)

Relacionat amb els intervals de confiança, fixem-nos com hi ha un error associat en cada cas, que està representat per l'amplada de l'interval. Una pregunta que ens podem plantejar és: quin ha de ser la mida mínima d'una mostra, perquè l'error sigui inferior a un cert valor?

Mida de mostra (mida mostral)

Podem deduir fàcilment una fórmula, per exemple en el cas de l'interval per a la mitjana, igualant a E (error) el valor de l'amplada de l'interval, i aïllant posteriorment el valor de n, amb la qual cosa obtindrem:

n={\frac {z_{c}^{2}\sigma ^{2}}{E^{2}}}

que hauria de ser la mida mínima de la mostra, perquè l'error no superi un valor fixat E.

De la mateixa manera, en el cas de l'interval per a la proporció obtindrem:

n={\frac {z_{c}^{2}pq}{E^{2}}}

Test d'hipòtesi

Una altra manera de tractar el tema de la inferència estadística són els test d'hipòtesi. La idea és formular una suposició (hipòtesi) sobre el valor d'un paràmetre poblacional, per a posteriorment comprovar amb un marge d'error fixat, i amb dades preses d'una mostra, si la hipòtesi formulada l'acceptem o la rebutjam.^[6]^[7] Estudiarem el contrast d'hipòtesi per a la mitjana poblacional i també per a la proporció.

a) Contrast d'hipòtesi per a la mitjana.

Suposem que tenim una població en la qual estem estudiant com a paràmetre la mitjana μ. Formulam la hipòtesi que la mitjana de la població té el valor μ₀. Ara agafem una mostra de mida $n\geq 30$ (per garantir que la distribució mostral segueix una normal), i obtenim com a valor de la mitjana d'aquesta mostra x. Amb un nivell de confiança fixat N_c, calcularem els valors extrems de l'interval de confiança, de tal manera que si el valor de la mitjana de la mostra es troba dins aquest interval, afirmarem que la hipòtesi és certa. En cas contrari la rebutjarem. En això consisteix essencialment aquest mètode. Ara sistematitzarem el procediment per fer-ho en els diferents casos de la mitjana, i després per a la proporció.

La hipòtesi inicial s'anomena hipòtesi nul·la (H₀), i la hipòtesi contrària (H₁) hipòtesi alternativa. Es poden presentar els casos següents:

a₁) Contrast bilateral.

En aquest cas la hipòtesi nul·la i l'alternativa són: H₀: μ=μ₀; H₁: μ≠μ₀

El pas següent seria calcular l'interval de confiança per a la mitjana poblacional per al valor considerat del N_c, és a dir:

(\mu -z_{c}{\frac {\sigma }{\sqrt {n}}};\mu +z_{c}{\frac {\sigma }{\sqrt {n}}})

i per acabar, comprovar si el valor de la mitjana d'una mostra de mida n es troba dins aquest interval. Si és així acceptarem la hipòtesi H₀. En cas contrari la rebutjarem i acceptarem la H₁.

a₂) Contrast unilateral.

En aquest cas se suposa que la mitjana poblacional és major o menor que un cert valor. És a dir, el contrast bilateral inclou els subcasos:

a₂₁) H₀: μ≥μ₀; H₁: μ<μ₀

a₂₂) H₀: μ≤μ₀; H₁: μ>μ₀

En ambdós casos tornaríem agafar una mostra per fer la comprovació corresponent. Emperò l'interval no és pas ara el mateix d'abans, sinó:

a₂₁)

(\mu _{0}-z_{c}{\frac {\sigma }{\sqrt {n}}};\,\,+\propto )

a₂₂)

(-\propto ;\,\,\mu _{0}+z_{c}{\frac {\sigma }{\sqrt {n}}})

aquests intervals igual que en el cas bilateral representen la zona dins la qual és vàlida la H₀ amb el nivell de confiança considerat. S'anomenen "zona o regió d'acceptació".

Tant en el cas bilateral com en els unilaterals, si la mitjana de la mostra analitzada es troba dins la zona d'acceptació, es considera vàlida la hipòtesi nul·la. En cas contrari es pren com a vàlida la hipòtesi alternativa.

Podem fer un estudi alternatiu completament equivalent per a la proporció. És a dir, en el cas que el paràmetre poblacional considerat sigui una proporció en lloc d'una mitjana, l'anàlisi seria el següent:

b) Contrast d'hipòtesi per a la proporció.

b₁) Contrast bilateral.

Anàlogament al cas de la mitjana: H₀: p=p₀; H₁: p≠p₀

i la zona d'acceptació és:

(p_{0}-z_{c}{\sqrt {\frac {p_{0}q_{0}}{n}}};p_{0}+z_{c}{\sqrt {\frac {p_{0}q_{0}}{n}}})

b₂) Contrast unilateral.

Com en el cas de la mitjana podem considerar dos subcasos:

b₂₁) H₀: p≥p₀; H₁: p<p₀

i la zona d'acceptació és:

(p_{0}-z_{c}{\sqrt {\frac {p_{0}q_{0}}{n}}};\,\,+\propto )

b₂₂) H₀: p≤p₀; H₁: p>p₀

en aquest subcas la zona d'acceptació és:

(-\propto \,\,;\,p_{0}+z_{c}{\sqrt {\frac {p_{0}q_{0}}{n}}})

En tots els casos, si el valor de la proporció de la mostra considerada es troba dins la zona d'acceptació, llavors considerarem que la hipòtesi nul·la és vàlida (amb el marge d'error fixat prèviament). Si no és així, s'accepta la hipòtesi alternativa.

Nota: els valors de $z_{c}$ corresponents als casos unilaterals, no són pas els mateixos utilitzats a la taula de més amunt per als intervals de confiança, sinó els que hi figuren a continuació:

$N_{s}$	0,10	0,05	0,01
$z_{c}$	1,28	1,645	2,33

essent $N_{s}$ el nivell de significació (marge d'error considerat). Recordem que la relació entre el nivell de confiança $N_{c}$ i el de significació és:

$N_{c}>+N_{s}=1$

Referències

↑ «inference | statistics | Britannica» (en anglès). [Consulta: 22 gener 2022].
↑ «Statistics - Statistical Inference» (en anglès americà). [Consulta: 22 gener 2022].
↑ «What is statistical inference - an introduction to inferential statistics» (en anglès americà), 07-04-2021. Arxivat de l'original el 2022-01-22. [Consulta: 22 gener 2022].
↑ «Unit 4A: Introduction to Statistical Inference» (en anglès). Arxivat de l'original el 2022-01-22. [Consulta: 22 gener 2022].
↑ «Statistical Inference and Estimation | STAT 504» (en anglès). [Consulta: 22 gener 2022].
↑ «INFERENCIA ESTADÍSTICA: PRUEBAS DE HIPÓTESIS – Revista Chilena de Anestesia» (en anglès americà). [Consulta: 19 febrer 2022].
↑ «INFERENCIA ESTADÍSTICA». [Consulta: 19 febrer 2022].

Vegeu també

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Inferència estadística

[1] «inference | statistics | Britannica» (en anglès). [Consulta: 22 gener 2022].

[2] «Statistics - Statistical Inference» (en anglès americà). [Consulta: 22 gener 2022].

[3] «What is statistical inference - an introduction to inferential statistics» (en anglès americà), 07-04-2021. Arxivat de l'original el 2022-01-22. [Consulta: 22 gener 2022].

[4] «Unit 4A: Introduction to Statistical Inference» (en anglès). Arxivat de l'original el 2022-01-22. [Consulta: 22 gener 2022].

[5] «Statistical Inference and Estimation | STAT 504» (en anglès). [Consulta: 22 gener 2022].

[6] «INFERENCIA ESTADÍSTICA: PRUEBAS DE HIPÓTESIS – Revista Chilena de Anestesia» (en anglès americà). [Consulta: 19 febrer 2022].

[7] «INFERENCIA ESTADÍSTICA». [Consulta: 19 febrer 2022].

[1]

[2]

[3]

[4]

[5]

[6]

[7]