Coeficient kappa de Cohen
El coeficient kappa de Cohen (κ, minúscula grec kappa) és una estadística que s'utilitza per mesurar la fiabilitat entre avaluadors per a ítems qualitatius (categòrics).[1] En general, es pensa que és una mesura més robusta que el simple càlcul de percentatge d'acord, ja que κ té en compte la possibilitat que l'acord es produeixi per casualitat. Hi ha controvèrsia al voltant del kappa de Cohen a causa de la dificultat d'interpretar els índexs d'acord. Alguns investigadors han suggerit que conceptualment és més senzill avaluar el desacord entre els ítems.[2]
El kappa de Cohen mesura l'acord entre dos evaluadors que classifiquen cadascun N ítems en categories C mútuament excloents. La definició de és [3]
on po és l'acord relatiu observat entre els evaluadors i pe és la probabilitat hipotètica d'acord d'atzar, utilitzant les dades observades per calcular les probabilitats que cada observador vegi aleatòriament cada categoria. Si els avaluadors estan totalment d'acord, aleshores . Si no hi ha cap acord entre els avaluadors diferent del que s'esperaria per casualitat (tal com dona pe), . És possible que l'estadística sigui negativa,[4] que pot ocórrer per casualitat si no hi ha relació entre les valoracions dels dos evaluadors, o pot reflectir una tendència real dels qualificadors a donar puntuacions diferents.[5]
Per a k categories, N observacions per categoritzar i el nombre de vegades que l'evaluador i va predir la categoria k :
Això es deriva de la següent construcció:
On és la probabilitat estimada que tant l'evaluador 1 com l'evaluador 2 classifiquen el mateix ítem com a k, mentre que és la probabilitat estimada que l'evaluador 1 classifiqui un element com a k (i de manera similar per a l'evaluador 2). La relació es basa en l'ús de la hipòtesi que la qualificació dels dos evaluadors és independent. El terme s'estima utilitzant el nombre d'ítems classificats com a k pel qualificador 1 () dividit pel total d'elements a classificar (): (i de la mateixa manera per a l'avaluador 2).
A la matriu de confusió tradicional 2 × 2 emprada en l'aprenentatge automàtic i les estadístiques per avaluar classificacions binàries, la fórmula Kappa de Cohen es pot escriure com:[6]
on TP són els vertaders positius, FP són els falsos positius, TN són els veritables negatius i FN són els falsos negatius. En aquest cas, el Kappa de Cohen és equivalent a la puntuació d'habilitat de Heidke coneguda a Meteorologia.[7] La mesura va ser introduïda per primera vegada per Myrick Haskell Doolittle el 1888.[8]
Referències
[modifica]- ↑ McHugh, Mary L. Biochemia Medica, 22, 3, 2012, pàg. 276–282. DOI: 10.11613/bm.2012.031. PMC: 3900052. PMID: 23092060.
- ↑ Pontius, Robert; Millones, Marco International Journal of Remote Sensing, 32, 15, 2011, pàg. 4407–4429. Bibcode: 2011IJRS...32.4407P. DOI: 10.1080/01431161.2011.552923.
- ↑ Zach. «Cohen's Kappa Statistic: Definition & Example» (en anglès). https://www.statology.org,+22-02-2021.+[Consulta: 25 març 2023].
- ↑ Sim, Julius; Wright, Chris C. Physical Therapy, 85, 3, 2005, pàg. 257–268. DOI: 10.1093/ptj/85.3.257. ISSN: 1538-6724. PMID: 15733050 [Consulta: free].
- ↑ «18.7 - Cohen's Kappa Statistic for Measuring Agreement | STAT 509» (en anglès). https://online.stat.psu.edu.+[Consulta: 25 març 2023].
- ↑ Chicco D., Warrens M.J., Jurman G. IEEE Access, 9, 6-2021, pàg. 78368 - 78381. DOI: 10.1109/ACCESS.2021.3084050 [Consulta: free].
- ↑ Heidke, P. Geografiska Annaler, 8, 4, 01-12-1926, pàg. 301–349. DOI: 10.1080/20014422.1926.11881138. ISSN: 2001-4422.
- ↑ Philosophical Society of Washington (Washington, D.C.). Bulletin of the Philosophical Society of Washington. (en anglès). 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution, 1887, p. 83.