Ce chapitre fournit du code R pour demarrer rapidement le calcul des différentes mesures statistiques permettant d’analyser la concordance entre évaluateurs. Il s’agit notamment:
- Kappa de Cohen : Il peut être utilisé pour deux variables nominales ou deux variables ordinales. Il tient compte des accords stricts entre les observateurs. Il est le plus approprié pour deux variables nominales.
- Weighted Kappa : Il ne doit être pris en compte que pour deux variables ordinales. Il permet un accord partiel.
- Kappa de Light, qui est la moyenne du Kappa de Cohen si on utilise plus de deux variables catégorielles.
- Kappa de Fleiss : pour deux ou plusieurs variables catégorielles (nominales ou ordinales)
- Coefficient de corrélation intra-classe (ICC) pour les données continues ou ordinales
Contents:
Livre associé
Concordance Inter-Juges: L'Essentiel - Guide Pratique dans RPackage R
Il existe de nombreux packages et fonctions R pour l’analyse des accords inter-évaluateurs, notamment:
Mesures | Fonction R [package] |
---|---|
kappa de Cohen | Kappa()[vcd], kappa2()[irr] |
kappa pondéré | Kappa()[vcd], kappa2()[irr], kappa2() |
Kappa de Light | kappam.light()[irr] |
Kappa de Fleiss | kappam.fleiss()[irr] |
ICC | icc()[irr], ICC()[psych], ICC()[psych] |
Prérequis
Dans les sections suivantes, nous n’utiliserons que les fonctions du package irr
. Assurez-vous de l’avoir installé.
Charger le package:
# install.packages("irr")
library(irr)
Exemples de données
- données psychiatriques diagnoses fournies par 6 évaluateurs [irr package]. Au total, 30 patients ont été recrutés et classés par chacun des évaluateurs dans 5 catégories nominales (Fleiss and others 1971) : 1. Dépression, 2. Trouble de la personnalité, 3. Schizophrénie, 4. Névrose, 5. Autre.
- données sur l’anxiété [package irr], contenant le diagnostic de l’anxiété chez 20 individus, evalué par 3 évaluateurs sur une échelle ordinale. Les valeurs vont de 1 (pas du tout anxieux) à 6 (extrêmement anxieux).
Inspecter les données:
# Données de diagnostic
data("diagnoses", package = "irr")
head(diagnoses[, 1:3])
## rater1 rater2 rater3
## 1 4. Neurosis 4. Neurosis 4. Neurosis
## 2 2. Personality Disorder 2. Personality Disorder 2. Personality Disorder
## 3 2. Personality Disorder 3. Schizophrenia 3. Schizophrenia
## 4 5. Other 5. Other 5. Other
## 5 2. Personality Disorder 2. Personality Disorder 2. Personality Disorder
## 6 1. Depression 1. Depression 3. Schizophrenia
# Données sur l'anxiété
data("anxiety", package = "irr")
head(anxiety, 4)
## rater1 rater2 rater3
## 1 3 3 2
## 2 3 6 1
## 3 3 4 4
## 4 4 6 4
Kappa de Cohen : deux évaluateurs
La kappa de Cohen correspond au kappa non pondérée. Il peut être utilisé pour deux variables nominales ou deux variables catégorielles ordinales
kappa2(diagnoses[, c("rater1", "rater2")], weight = "unweighted")
## Cohen's Kappa for 2 Raters (Weights: unweighted)
##
## Subjects = 30
## Raters = 2
## Kappa = 0.651
##
## z = 7
## p-value = 2.63e-12
Kappa pondéré : échelles ordinales
La kappa pondérée ne devrait être prise en compte que lorsque les évaluations sont calculées selon une échelle ordinale, comme dans l’exemple suivant.
kappa2(anxiety[, c("rater1", "rater2")], weight = "equal")
Kappa de Light’s : évaluateurs multiples
Il retourne le kappa moyen de Cohen lorsque vous avez plusieurs évaluateurs
kappam.light(diagnoses[, 1:3])
## Light's Kappa for m Raters
##
## Subjects = 30
## Raters = 3
## Kappa = 0.555
##
## z = NaN
## p-value = NaN
Kappa de Fleiss’ : évaluateurs multiples
Les évaluateurs ne sont pas supposés être les mêmes pour tous les sujets.
kappam.fleiss(diagnoses[, 1:3])
## Fleiss' Kappa for m Raters
##
## Subjects = 30
## Raters = 3
## Kappa = 0.534
##
## z = 9.89
## p-value = 0
Coefficients de corrélation intraclasse : échelles continues
Pour en savoir plus, lisez le chapitre @ref(coefficient de corrélation intra-classe):
icc(
anxiety, model = "twoway",
type = "agreement", unit = "single"
)
## Single Score Intraclass Correlation
##
## Model: twoway
## Type : agreement
##
## Subjects = 20
## Raters = 3
## ICC(A,1) = 0.198
##
## F-Test, H0: r0 = 0 ; H1: r0 > 0
## F(19,39.7) = 1.83 , p = 0.0543
##
## 95%-Confidence Interval for ICC Population Values:
## -0.039 < ICC < 0.494
Résumé
Cet article décrit comment calculer les différentes mesures de l’accord inter-évaluateurs à l’aide des packages “irr”.
References
Fleiss, J.L., and others. 1971. “Measuring Nominal Scale Agreement Among Many Raters.” Psychological Bulletin 76 (5): 378–82.
Version: English
No Comments