Dada no disponible
En estadística, una dada no disponible[1] o valor no disponible (en anglès missing data) ocorre quan no hi ha cap valor guardat per a una variable d'una observació. Les dades no disponibles apareixen freqüentment i poden tenir un efecte significatiu sobre les conclusions extretes a partir de les dades.
Una dada no disponible pot ocórrer a causa d'una no-resposta, és a dir, si no es proveeix informació per un o diversos ítems de la unitat. Alguns ítems són més sensibles a no obtenir resposta que altres (per exemple, ítems sobre temes privats com els ingressos o la religió). Un altre tipus de dada disponible és la causada per l'abandonament (dropout) quan s'estudia un subjecte al llarg del temps: en aquest cas, una dada no disponible ocorre quan el participant abandona abans que l'estudi acabi i, per tant, li manquen una o més dades. Finalment, alguns valors no disponibles poden ser causats per l'investigador: per exemple, si la recopilació de dades no es du a terme correctament o es cometen errors en l'entrada de dades.[2] Àrees on apareixen dades no disponibles sovint són les d'economia, sociologia i ciències polítiques a causa que els governs no informes d'algunes estadístiques.[3]
Es poden utilitzar models gràfics per descriure els mecanismes de dades no disponibles en detall.[4][5]
Tipus de dades no disponibles
[modifica]Entendre les raons per les quals les dades no estan disponibles pot ajudar a analitzar la resta de dades. Si els valors no estan disponibles aleatòriament, la mostra de dades pot ser encara representativa de la població; d'altra banda, si els valors manquen de manera sistemàtica, l'anàlisi pot tornar-se més complicat. Per exemple, en un estudi de la relació entre el coeficient intel·lectual i els ingressos, els participants amb un CI per sobre de la mitjana poden tendir a evitar la pregunta «Quins són els vostres ingressos?» i, llavors, l'anàlisi pot concloure falsament que no hi ha cap associació entre el CI i el sou, quan en realitat podria haver-n'hi. A causa d'aquests problemes, els metodolòlegs aconsellen als investigadors que dissenyin els estudis per minimitzar la incidència de les dades no disponibles.[2]
No disponible completament aleatòriament
[modifica]Els valors d'un conjunt de dades són no disponibles completament aleatòriament (MCAR, de l'anglès missing completely at random) si els esdeveniments que han portat qualsevol ítem particular a ser no disponible són independents tant de les variables observables com dels paràmetres no observables d'interès, i ocorren aleatòriament en la seva totalitat.[6] Quan les dades són MCAR, les anàlisis dutes a terme sobre les dades no tenen biaix; tanmateix, rarament les dades són MCAR.
- Exemple: en una enquesta durant un tractament mèdic antidepressiu, el subjecte decideix si respon o no llançant una moneda a l'aire.
No disponible aleatòriament
[modifica]Una dada no disponible aleatòriament (MAR, de l'anglès missing at random) és una alternativa a la secció anterior: ocorre quan la mancança d'un valor està relacionada amb una variable particular, però no està relacionada amb el valor de la variable que té la dada no disponible.[6]
- Exemple: en una enquesta durant un tractament mèdic antidepressiu, els participants homes tenen més tendència a ometre una pregunta del qüestionari, però això no depèn del seu nivell de depressió.
No disponible no aleatòriament
[modifica]Una dada no disponible no aleatòriament (MNAR, de l'anglès missing not at random) és una dada que manca per una raó específica (per exemple, quan el valor de la variable que falta està relacionat amb la raó per la qual falta).[6] En aquest cas, no es poden eliminar les dades no disponibles, ja que s'obtindria com a resultat una mostra esbiaixada i no representativa.
- Exemple: en una enquesta durant un tractament mèdic antidepressiu, els participants amb una depressió severa, o amb efectes col·laterals de la medicació, tenen tendència a tenir dades no disponibles cap al final de l'estudi.
Referències
[modifica]- ↑ «Dada no disponible». Cercaterm. TERMCAT, Centre de Terminologia.
- ↑ 2,0 2,1 Ader, H.J., Mellenbergh, G.J., 2008
- ↑ Messner SF «Exploring the Consequences of Erratic Data Reporting for Cross-National Research on Homicide». Journal of Quantitative Criminology, 8, 2, 1992, pàg. 155–173. DOI: 10.1007/bf01066742.
- ↑ Mohan, Karthika; Pearl, Judea; Tian, Jin. Advances in Neural Information Processing Systems 26, 2013, p. 1277–1285.
- ↑ Karvanen, Juha «Study design in causal models». Scandinavian Journal of Statistics, 42, 2, 2015, pàg. 361–377. DOI: 10.1111/sjos.12110.
- ↑ 6,0 6,1 6,2 Polit DF Beck CT. Nursing Research: Generating and Assessing Evidence for Nursing Practice, 9a ed.. Philadelphia, USA: Wolters Klower Health, Lippincott Williams & Wilkins, 2012.
Bibliografia
[modifica]- Adèr, H.J. (2008). "Chapter 13: Missing data". In Adèr, H.J., & Mellenbergh, G.J. (Eds.) (with contributions by Hand, D.J.), Advising on Research Methods: A consultant's companion (pp. 305–332). Huizen, The Netherlands: Johannes van Kessel Publishing. ISBN 90-79418-01-3
- Stoop, I., Billiet, J., Koch, A., and Fitzgerald, R. (2010) Improving Survey Response: Lessons Learned from the European Social Survey. Wiley. ISBN 0-470-51669-0
- Zarate LE, Nogueira BM, Santos TRA, Song MAJ (2006). "Techniques for Missing Value Recovering in Imbalanced Databases: Application in a Marketing Database with Massive Missing Data". IEEE International Conference on Systems, Man and Cybernetics, 2006. SMC '06. 3: 2658–64. DOI:10.1109/ICSMC.2006.385265 (en anglès)
Enllaços externs
[modifica]- Missing values-envision (anglès)
- missingdata.org.uk, Department of Medical Statistics, London School of Hygiene & Tropical Medicine (anglès)