Cet article décrit comment interpréter le coefficient kappa, qui est utilisé pour évaluer la fiabilité ou l’accord inter-évaluateurs.
Dans la plupart des applications, on s’intéresse généralement davantage à l’ampleur du coefficient kappa plutôt qu’à la significativité statistique de kappa. Les classifications suivantes ont été suggérées pour interpréter la force de l’accord en fonction de la valeur Kappa de Cohen(Altman 1999, Landis JR (1977)).
Valeur de k | Force de l’accord |
---|---|
< 0 | Médiocre |
0,01 - 0,20 | Léger |
0,21-0,40 | Passable |
0,41-0,60 | Modéré |
0,61-0,80 | Substantiel |
0,81 - 1,00 | Presque parfait |
Toutefois, cette interprétation permet de dire que très peu d’accord entre les évaluateurs est “substantiel”. D’après le tableau, 61 % de concordance est considéré comme bon, mais cela peut immédiatement être considéré comme problématique selon le domaine. Près de 40 % des données représentent des données erronées. Dans le domaine de la recherche en soins de santé, cela pourrait déboucher sur des recommandations visant à modifier la pratique sur la base de preuves erronées. Pour un laboratoire clinique, avoir 40% d’évaluations d’échantillons erronées serait un problème de qualité extrêmement sérieux(McHugh 2012).
C’est la raison pour laquelle de nombreux textes recommandent un accord de 80 % comme minimum acceptable de l’accord inter-évaluateurs. Tout kappa inférieur à 0,60 indique un accord inadéquat entre les évaluateurs et un manque de confiance dans les résultats de l’étude.
Fleiss et al. (2003) ont déclaré ceci pour la plupart des applications,
- des valeurs supérieures à 0,75 ou plus peuvent être considérées comme un excellent accord au-delà du hasard,
- des valeurs inférieures à 0,40 environ peuvent être considérées comme un mauvais accord au-delà du hasard, et
- des valeurs comprises entre 0,40 et 0,75 peuvent être considérées comme représentatives d’un accord juste à bon au-delà du hasard.
Une autre interprétation logique de kappa de (McHugh 2012) est suggérée dans le tableau ci-dessous:
Valeur de k | Niveau d’accord | % de données fiables |
---|---|---|
0 - 0,20 | Aucun | 0 - 4‰ |
0,21 - 0,39 | Minimal | 4 - 15% |
0,40 - 0,59 | Faible | 15 - 35% |
0,60 - 0,79 | Modéré | 35 - 63% |
0,80 - 0,90 | Fort | 64 - 81% |
Au-dessus de 0,90 | Presque parfait | 82 - 100% |
Dans le tableau ci-dessus, la colonne “% de données fiables” correspond à kappa au carré, équivalent du coefficient de corrélation au carré (R^2), qui est directement interprétable.
References
Altman, Douglas G. 1999. Practical Statistics for Medical Research. Chapman; Hall/CRC Press.
Landis JR, Koch GG. 1977. “The Measurement of Observer Agreement for Categorical Data” 1 (33). Biometrics: 159–74.
McHugh, Mary. 2012. “Interrater Reliability: The Kappa Statistic.” Biochemia Medica : Časopis Hrvatskoga Društva Medicinskih Biokemičara / HDMB 22 (October): 276–82. doi:10.11613/BM.2012.031.
Version: English
No Comments