Coeficient kappa de Cohen

El coeficient kappa de Cohen (κ, minúscula grec kappa) és una estadística que s'utilitza per mesurar la fiabilitat entre avaluadors per a ítems qualitatius (categòrics).^[1] En general, es pensa que és una mesura més robusta que el simple càlcul de percentatge d'acord, ja que κ té en compte la possibilitat que l'acord es produeixi per casualitat. Hi ha controvèrsia al voltant del kappa de Cohen a causa de la dificultat d'interpretar els índexs d'acord. Alguns investigadors han suggerit que conceptualment és més senzill avaluar el desacord entre els ítems.^[2]

El kappa de Cohen mesura l'acord entre dos evaluadors que classifiquen cadascun N ítems en categories C mútuament excloents. La definició de ${\textstyle \kappa }$ és ^[3]

$\kappa \equiv {\frac {p_{o}-p_{e}}{1-p_{e}}}=1-{\frac {1-p_{o}}{1-p_{e}}},$

on $p o$ és l'acord relatiu observat entre els evaluadors i $p e$ és la probabilitat hipotètica d'acord d'atzar, utilitzant les dades observades per calcular les probabilitats que cada observador vegi aleatòriament cada categoria. Si els avaluadors estan totalment d'acord, aleshores ${\textstyle \kappa =1}$ . Si no hi ha cap acord entre els avaluadors diferent del que s'esperaria per casualitat (tal com dona $p e$ ), ${\textstyle \kappa =0}$ . És possible que l'estadística sigui negativa,^[4] que pot ocórrer per casualitat si no hi ha relació entre les valoracions dels dos evaluadors, o pot reflectir una tendència real dels qualificadors a donar puntuacions diferents.^[5]

Per a $k$ categories, $N$ observacions per categoritzar i $n_{ki}$ el nombre de vegades que l'evaluador $i$ va predir la categoria $k$ :

$p_{e}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}$

Això es deriva de la següent construcció:

$p_{e}=\sum _{k}{\widehat {p_{k12}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}=\sum _{k}{\frac {n_{k1}}{N}}{\frac {n_{k2}}{N}}={\frac {1}{N^{2}}}\sum _{k}n_{k1}n_{k2}$

On ${\widehat {p_{k12}}}$ és la probabilitat estimada que tant l'evaluador 1 com l'evaluador 2 classifiquen el mateix ítem com a k, mentre que ${\widehat {p_{k1}}}$ és la probabilitat estimada que l'evaluador 1 classifiqui un element com a k (i de manera similar per a l'evaluador 2). La relació ${\textstyle {\widehat {p_{k}}}=\sum _{k}{\widehat {p_{k1}}}{\widehat {p_{k2}}}}$ es basa en l'ús de la hipòtesi que la qualificació dels dos evaluadors és independent. El terme ${\widehat {p_{k1}}}$ s'estima utilitzant el nombre d'ítems classificats com a k pel qualificador 1 ( $n_{k1}$ ) dividit pel total d'elements a classificar ( $N$ ): ${\widehat {p_{k1}}}={n_{k1} \over N}$ (i de la mateixa manera per a l'avaluador 2).

A la matriu de confusió tradicional 2 × 2 emprada en l'aprenentatge automàtic i les estadístiques per avaluar classificacions binàries, la fórmula Kappa de Cohen es pot escriure com:^[6]

$\kappa ={\frac {2\times (TP\times TN-FN\times FP)}{(TP+FP)\times (FP+TN)+(TP+FN)\times (FN+TN)}}$

on TP són els vertaders positius, FP són els falsos positius, TN són els veritables negatius i FN són els falsos negatius. En aquest cas, el Kappa de Cohen és equivalent a la puntuació d'habilitat de Heidke coneguda a Meteorologia.^[7] La mesura va ser introduïda per primera vegada per Myrick Haskell Doolittle el 1888.^[8]

Referències

↑ McHugh, Mary L. Biochemia Medica, 22, 3, 2012, pàg. 276–282. DOI: 10.11613/bm.2012.031. PMC: 3900052. PMID: 23092060.
↑ Pontius, Robert; Millones, Marco International Journal of Remote Sensing, 32, 15, 2011, pàg. 4407–4429. Bibcode: 2011IJRS...32.4407P. DOI: 10.1080/01431161.2011.552923.
↑ Zach. «Cohen's Kappa Statistic: Definition & Example» (en anglès). https://www.statology.org,+22-02-2021.+[Consulta: 25 març 2023].
↑ Sim, Julius; Wright, Chris C. Physical Therapy, 85, 3, 2005, pàg. 257–268. DOI: 10.1093/ptj/85.3.257. ISSN: 1538-6724. PMID: 15733050 [Consulta: free].
↑ «18.7 - Cohen's Kappa Statistic for Measuring Agreement | STAT 509» (en anglès). https://online.stat.psu.edu.+[Consulta: 25 març 2023].
↑ Chicco D., Warrens M.J., Jurman G. IEEE Access, 9, 6-2021, pàg. 78368 - 78381. DOI: 10.1109/ACCESS.2021.3084050 [Consulta: free].
↑ Heidke, P. Geografiska Annaler, 8, 4, 01-12-1926, pàg. 301–349. DOI: 10.1080/20014422.1926.11881138. ISSN: 2001-4422.
↑ Philosophical Society of Washington (Washington, D.C.). Bulletin of the Philosophical Society of Washington. (en anglès). 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution, 1887, p. 83.

[Mary2012-1] McHugh, Mary L. Biochemia Medica, 22, 3, 2012, pàg. 276–282. DOI: 10.11613/bm.2012.031. PMC: 3900052. PMID: 23092060.

[:0-2] Pontius, Robert; Millones, Marco International Journal of Remote Sensing, 32, 15, 2011, pàg. 4407–4429. Bibcode: 2011IJRS...32.4407P. DOI: 10.1080/01431161.2011.552923.

[3] Zach. «Cohen's Kappa Statistic: Definition & Example» (en anglès). https://www.statology.org,+22-02-2021.+[Consulta: 25 març 2023].

[4] Sim, Julius; Wright, Chris C. Physical Therapy, 85, 3, 2005, pàg. 257–268. DOI: 10.1093/ptj/85.3.257. ISSN: 1538-6724. PMID: 15733050 [Consulta: free].

[5] «18.7 - Cohen's Kappa Statistic for Measuring Agreement | STAT 509» (en anglès). https://online.stat.psu.edu.+[Consulta: 25 març 2023].

[6] Chicco D., Warrens M.J., Jurman G. IEEE Access, 9, 6-2021, pàg. 78368 - 78381. DOI: 10.1109/ACCESS.2021.3084050 [Consulta: free].

[7] Heidke, P. Geografiska Annaler, 8, 4, 01-12-1926, pàg. 301–349. DOI: 10.1080/20014422.1926.11881138. ISSN: 2001-4422.

[8] Philosophical Society of Washington (Washington, D.C.). Bulletin of the Philosophical Society of Washington. (en anglès). 10. Washington, D.C.: Published by the co-operation of the Smithsonian Institution, 1887, p. 83.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]