Passer le contenu
Article

5 étapes pour construire un indice composite de qualité des données afin d’évaluer la performance globale des enquêteurs

Premier Blog d’une Série en Deux Parties. Dans ce blog, l’équipe Data on Demand (DoD) d’IDinsight explique comment elle a construit un indice de qualité des données composite et unifié pouvant être utilisé pour évaluer la performance des enquêteurs. La deuxième partie de cette série discutera de la manière dont l’équipe a utilisé cet indice de qualité des données pour créer un système d’incitations pour les enquêteurs afin d’encourager une meilleure performance. Nous espérons que les étapes décrites dans ce blog seront utiles à d’autres praticiens impliqués dans la collecte de données.

Photo credits: Markus Spiske on Unsplash

Motivation

L’équipe Data on Demand (DoD) a réalisé des innovations significatives et investi dans ses systèmes de gestion de la qualité des données pour aborder de manière holistique les différentes sources d’erreur pouvant survenir lors de la collecte de données.

L’équipe DoD surveille la qualité des données à chaque étape du processus de collecte de données. Avant le lancement d’une enquête, nous codons soigneusement nos formulaires pour minimiser les réponses illogiques ou infaisables. De plus, nous formons les enquêteurs aux protocoles pour s’assurer que les questions sont posées et enregistrées correctement. Pendant la collecte de données, nous avons une équipe dédiée de moniteurs pour effectuer des vérifications rétrospectives, des contrôles sur place et des audits audio tandis que notre équipe effectue des vérifications de base à haute fréquence sur les données (voir figure 1). Enfin, après la collecte des données, nous prenons en compte les incohérences des données (par exemple, remplacer les valeurs au-dessus du 95e percentile par la valeur du 95e percentile).

Pour être précis, les sorties quotidiennes de notre système de qualité des données mesurent les drapeaux pour chaque question. Ces contrôles sont plus exploitables car ils fournissent des informations sur la manière dont les enquêteurs peuvent améliorer spécifiquement la qualité de leurs données. Cependant, il est difficile d’interpréter une telle variété de points de données et de comprendre la performance globale d’un enquêteur donné.

À cette fin, l’équipe DoD a construit un indice de qualité des données unifié pour quantifier la performance des enquêteurs pendant la collecte de données.

Les avantages de la construction d’un indice sont triples :

  1. Usage : Un indice est un moyen plus simple d’interpréter plusieurs contrôles au niveau des questions pour comprendre la performance globale. L’indice varie de 0 à 100%, où 100% indique une performance parfaite en termes de qualité des données.
  2. Généralisabilité : Étant donné que les contrôles de qualité des données diffèrent selon les enquêtes en fonction du questionnaire, une méthodologie dans laquelle les enquêteurs reçoivent un score unique indépendamment des contrôles au niveau des questions peut être appliquée à différentes enquêtes. Cela nous permet de suivre l’indice à travers les enquêtes.
  3. Incitations : Un score unique peut être utilisé pour inciter les enquêteurs à améliorer leur performance. La deuxième partie de cette série de blogs discute des incitations en détail.

Méthodologie

Les contrôles mentionnés ci-dessus produisent 10 indicateurs de qualité des données. Une description plus détaillée de chacun de ces indicateurs peut être trouvée dans le tableau ci-dessous :

Catégories

Indicateur

Description

Vérifications sur place Taux de violation du protocole de vérification sur place Nombre de protocoles violés / Nombre total de protocoles vérifiés
Score de vérification sur place Score sur 3 basé sur la nécessité de reformation de l’enquêteur
Audits audio Taux de non-conformité des audits audio Nombre de non-conformités avec l’enquête principale / Nombre total de questions auditées audio
Taux de violation du protocole d’audit audio Nombre de protocoles violés / Nombre total de protocoles vérifiés
Vérifications rétrospectives en personne Taux de non-conformité des vérifications rétrospectives en personne Nombre de non-conformités avec l’enquête principale / Nombre total de questions vérifiées rétrospectivement
Vérifications rétrospectives par téléphone Taux de non-conformité des vérifications rétrospectives par téléphone Nombre de non-conformités avec l’enquête principale / Nombre total de questions vérifiées rétrospectivement
Vérifications à haute fréquence Proportion de « Je ne sais pas » Nombre de questions avec « je ne sais pas » comme réponse / Nombre total de questions
Proportion de refus Nombre de questions avec refus comme réponse / Nombre total de questions
Proportion de violations logiques 1 Nombre de questions avec une violation logique / Nombre total de questions
Proportion de violations des valeurs aberrantes 2 Nombre de questions avec une violation des valeurs aberrantes / Nombre total de questions

Avec 10 indicateurs de qualité des données, le principal défi que nous avons anticipé était que chaque indicateur n’aurait pas la même importance en ce qui concerne la qualité des données au niveau des enquêteurs. En conséquence, nous avons créé des pondérations pour chaque composant en utilisant un mélange de stratégies basées sur les données et de préférences subjectives. Nous avons décidé de procéder avec une approche mixte parce que :

  1. Nous voulions nous assurer que nos expériences de terrain étaient prises en compte, surtout étant donné que les données que nous utiliserions ne reflèteraient qu’une seule enquête.
  2. Les données collectées incorporeraient des problèmes de qualité pouvant découler des activités préalables à la collecte des données, comme la formation des enquêteurs, pour lesquelles nous ne voudrions pas pénaliser nos enquêteurs.
  3. Bien que nous ayons des préférences subjectives sur différents groupes d’indicateurs, nous ne savions pas comment quantifier les pondérations, différencier entre les indicateurs au sein des groupes ou confirmer si certains indicateurs expliquaient d’autres indicateurs. Utiliser des données aiderait à informer certaines de ces décisions.

Nous discutons des cinq étapes que nous avons suivies pour créer l’indice de qualité des données ci-dessous.

Étape 1 : Collecter les pondérations subjectives

Nous avons d’abord voulu nous aligner en interne sur les indicateurs les plus importants pour chaque personne de notre équipe (tous ayant une expérience en qualité des données). Nous avons employé la méthode du processus de répartition du budget dans laquelle différents « experts » distribuaient indépendamment un total de 30 points à différents indicateurs. Ensuite, nous avons révélé nos préférences les uns aux autres et avons eu une discussion d’équipe pour nous aligner sur l’importance de différents indicateurs.

Cette discussion a révélé que nos préférences étaient basées sur des groupes ; en effet, nous n’avions pas de préférences très fortes pour les indicateurs au sein de chaque groupe. Nos coéquipiers croyaient largement en une hiérarchie où les audits audio et les vérifications sur place devaient peser le plus, puis les vérifications rétrospectives, et enfin les vérifications à haute fréquence. Cela était largement dû au fait que les vérifications sur place et les audits audio nous aident à suivre les erreurs des enquêteurs. En plus de cela, les audits audio nous donnent un calcul de non-conformité plus objectif que les vérifications rétrospectives parce que les vérifications rétrospectives invitent la possibilité que les répondants changent de réponses lors du réenquête. Enfin, les vérifications à haute fréquence étaient les moins pondérées parce qu’elles reflétaient davantage le cadrage du questionnaire plutôt que la performance des enquêteurs. Nous avons gardé cela à l’esprit en continuant notre approche.

Étape 2 : Nettoyer les indicateurs

Pour générer des pondérations basées sur les données, nous avons utilisé les données des contrôles de qualité des données définis ci-dessus d’une collecte de données précédente impliquant 480 enquêteurs. Nous avons compilé des données des vérifications sur place, des vérifications rétrospectives, des audits audio et des vérifications à haute fréquence pour chaque enquêteur pour chaque question signalée pour des contrôles. Pour calculer les non-conformités, nous avons comparé les données saisies par les moniteurs des vérifications rétrospectives et des audits audio avec les données de l’enquête principale saisies par les enquêteurs en faisant correspondre l’identifiant unique de l’unité d’enquête. Nous avons calculé les violations de protocoles pour chaque question à partir des données de vérification sur place et d’audit audio. Pour les scores de vérification sur place, nous avons calculé des moyennes au niveau de la question pour chaque enquêteur. Enfin, pour les vérifications à haute fréquence, nous avons regroupé les contrôles au niveau de l’enquêteur.

Nous avons ensuite utilisé ces contrôles au niveau des questions pour générer nos indicateurs de qualité des données au niveau de l’enquêteur. Pour les indicateurs basés sur les proportions, nous avons additionné le nombre de violations sur toutes les questions et les avons divisés par le nombre total de questions pour générer des proportions unifiées. Pour le score de vérification sur place, nous avons pris une moyenne de tous les scores reçus par un enquêteur. Le jeu de données final que nous avons produit contenait tous les indicateurs au niveau de l’enquêteur.

Étape 3 : Construire des matrices de corrélation

Ensuite, nous avons construit des matrices de corrélation à deux niveaux – groupes et indicateurs (comme défini dans le tableau ci-dessus).

La matrice de corrélation des groupes de qualité des données a été utilisée pour dériver des pondérations basées sur les données à un niveau élevé. Nous avons utilisé une approche appelée pondération par covariance inverse (ICW), dans laquelle nous avons produit une matrice de corrélation des groupes, inversé les valeurs, additionné les entrées des lignes pour tous les groupes, et enfin, multiplié chaque somme par un multiplicateur commun pour arriver aux pondérations finales des groupes. Par exemple, si une ligne dans la matrice de corrélation inverse pour un groupe ajoutait jusqu’à 1,34, nous les avons multipliées par un multiplicateur de 11,5 pour arriver à une pondération de 15.

La principale constatation de la deuxième matrice de corrélation au niveau des indicateurs était que le score global de vérification sur place était fortement corrélé avec le score de vitesse de vérification sur place, le score de sondage, le score de confort et le score de protocole. En conséquence, nous avons décidé de supprimer les quatre scores granulaires pour minimiser les doubles pénalités aux enquêteurs et avons utilisé le score global dans notre indice final.

Étape 4 : Brainstorming sur différentes options de pondération

Maintenant que nous avions à la fois les pondérations subjectives et basées sur les données, l’équipe s’est réunie pour réfléchir à différentes options de pondération.

Finalement, nous avons utilisé la méthode de pondération par covariance inverse décrite à l’étape 3 pour dériver les pondérations des groupes. Nous avons remarqué que les vérifications à haute fréquence étaient pondérées plus fortement que les vérifications rétrospectives en personne et par téléphone par cette méthode, mais nous avons décidé de les pondérer moins car l’équipe avait unanimement convenu qu’elles devaient être les moins pondérées. Nous avons surpondéré les vérifications rétrospectives en personne et par téléphone (qui étaient toutes deux pondérées de manière égale au départ) parce que nous avons convenu que les deux étaient des mesures importantes de la performance des enquêteurs, non loin derrière les vérifications sur place et les audits audio. Au sein de chaque groupe, nous avons suivi une approche similaire pour attribuer des pondérations qui s’ajouteraient au poids global du groupe. Le taux de non-conformité des audits audio était pondéré plus fortement que la violation du protocole d’audit audio, et les vérifications des valeurs aberrantes et logiques étaient pondérées plus fortement que les « je ne sais pas » et les refus. Le graphique ci-dessous résume les pondérations que nous avons attribuées à chaque indicateur (en jaune) et groupe (en bleu clair).

Étape 5 : Appliquer différentes pondérations aux données

Avant d’appliquer les indices au jeu de données au niveau des enquêteurs que nous avions compilé, il y avait deux problèmes que nous devions résoudre.

  • Indice non intuitif : Les entrées de notre indice de qualité des données étaient structurées de manière à ce que la « bonne » qualité des données implique un score de vérification sur place plus élevé mais un taux de non-conformité et de violation de protocole plus bas. En conséquence, nous avons redessiné les indicateurs de non-conformité et de violation pour [1 – taux de violation ou taux de non-conformité]. De cette manière, plus le score est élevé, mieux c’est ! Finalement, l’indice au niveau de l’enquêteur a été converti en un score en pourcentage pour une interprétation facile.
  • Indicateurs manquants pour les enquêteurs : Il y avait des cas où certains indicateurs manquaient pour les enquêteurs. Cela peut être un scénario courant où, par exemple, un enquêteur n’a pas été vérifié en personne une seule fois pendant la période de collecte des données – ils n’ont donc pas de taux de non-conformité des vérifications rétrospectives en personne. Pour ces cas, nous avons supprimé cet indicateur particulier du numérateur et du dénominateur pour calculer l’indice final de qualité des données pour l’enquêteur. Cependant, en tant que solution prospective, nous visons à structurer nos affectations pour garantir que tous les enquêteurs subissent tous les contrôles de qualité des données.

Notre Indice Final

Après avoir dérivé l’indice, nous avons calculé quel serait le score de l’indice de qualité des données pour chacun de nos enquêteurs et analysé la distribution. En moyenne, les enquêteurs ont un score moyen de qualité des données de 80,44% et une médiane de 80,81%. Les scores variaient de 59,74% à 92,12%.

Nous croyons que notre score d’indice de qualité des données sera un moyen simple et utile d’évaluer la qualité des données d’un enquêteur. L’indice prend en compte un ensemble de contrôles de qualité des données effectués dans chaque enquête et pondère certains contrôles plus que d’autres en fonction de leur importance. Nous prévoyons d’utiliser ce score pour suivre la performance de qualité des données des enquêteurs au fil du temps et créer des structures de bonus pour inciter à une meilleure performance.