Premier Blog d’une Série en Deux Parties. Dans ce blog, l’équipe Data on Demand (DoD) d’IDinsight explique comment elle a construit un indice de qualité des données composite et unifié pouvant être utilisé pour évaluer la performance des enquêteurs. La deuxième partie de cette série discutera de la manière dont l’équipe a utilisé cet indice de qualité des données pour créer un système d’incitations pour les enquêteurs afin d’encourager une meilleure performance. Nous espérons que les étapes décrites dans ce blog seront utiles à d’autres praticiens impliqués dans la collecte de données.
Photo credits: Markus Spiske on Unsplash
L’équipe Data on Demand (DoD) a réalisé des innovations significatives et investi dans ses systèmes de gestion de la qualité des données pour aborder de manière holistique les différentes sources d’erreur pouvant survenir lors de la collecte de données.
L’équipe DoD surveille la qualité des données à chaque étape du processus de collecte de données. Avant le lancement d’une enquête, nous codons soigneusement nos formulaires pour minimiser les réponses illogiques ou infaisables. De plus, nous formons les enquêteurs aux protocoles pour s’assurer que les questions sont posées et enregistrées correctement. Pendant la collecte de données, nous avons une équipe dédiée de moniteurs pour effectuer des vérifications rétrospectives, des contrôles sur place et des audits audio tandis que notre équipe effectue des vérifications de base à haute fréquence sur les données (voir figure 1). Enfin, après la collecte des données, nous prenons en compte les incohérences des données (par exemple, remplacer les valeurs au-dessus du 95e percentile par la valeur du 95e percentile).
Pour être précis, les sorties quotidiennes de notre système de qualité des données mesurent les drapeaux pour chaque question. Ces contrôles sont plus exploitables car ils fournissent des informations sur la manière dont les enquêteurs peuvent améliorer spécifiquement la qualité de leurs données. Cependant, il est difficile d’interpréter une telle variété de points de données et de comprendre la performance globale d’un enquêteur donné.
À cette fin, l’équipe DoD a construit un indice de qualité des données unifié pour quantifier la performance des enquêteurs pendant la collecte de données.
Les avantages de la construction d’un indice sont triples :
Les contrôles mentionnés ci-dessus produisent 10 indicateurs de qualité des données. Une description plus détaillée de chacun de ces indicateurs peut être trouvée dans le tableau ci-dessous :
Catégories
Description
Avec 10 indicateurs de qualité des données, le principal défi que nous avons anticipé était que chaque indicateur n’aurait pas la même importance en ce qui concerne la qualité des données au niveau des enquêteurs. En conséquence, nous avons créé des pondérations pour chaque composant en utilisant un mélange de stratégies basées sur les données et de préférences subjectives. Nous avons décidé de procéder avec une approche mixte parce que :
Nous discutons des cinq étapes que nous avons suivies pour créer l’indice de qualité des données ci-dessous.
Nous avons d’abord voulu nous aligner en interne sur les indicateurs les plus importants pour chaque personne de notre équipe (tous ayant une expérience en qualité des données). Nous avons employé la méthode du processus de répartition du budget dans laquelle différents « experts » distribuaient indépendamment un total de 30 points à différents indicateurs. Ensuite, nous avons révélé nos préférences les uns aux autres et avons eu une discussion d’équipe pour nous aligner sur l’importance de différents indicateurs.
Cette discussion a révélé que nos préférences étaient basées sur des groupes ; en effet, nous n’avions pas de préférences très fortes pour les indicateurs au sein de chaque groupe. Nos coéquipiers croyaient largement en une hiérarchie où les audits audio et les vérifications sur place devaient peser le plus, puis les vérifications rétrospectives, et enfin les vérifications à haute fréquence. Cela était largement dû au fait que les vérifications sur place et les audits audio nous aident à suivre les erreurs des enquêteurs. En plus de cela, les audits audio nous donnent un calcul de non-conformité plus objectif que les vérifications rétrospectives parce que les vérifications rétrospectives invitent la possibilité que les répondants changent de réponses lors du réenquête. Enfin, les vérifications à haute fréquence étaient les moins pondérées parce qu’elles reflétaient davantage le cadrage du questionnaire plutôt que la performance des enquêteurs. Nous avons gardé cela à l’esprit en continuant notre approche.
Pour générer des pondérations basées sur les données, nous avons utilisé les données des contrôles de qualité des données définis ci-dessus d’une collecte de données précédente impliquant 480 enquêteurs. Nous avons compilé des données des vérifications sur place, des vérifications rétrospectives, des audits audio et des vérifications à haute fréquence pour chaque enquêteur pour chaque question signalée pour des contrôles. Pour calculer les non-conformités, nous avons comparé les données saisies par les moniteurs des vérifications rétrospectives et des audits audio avec les données de l’enquête principale saisies par les enquêteurs en faisant correspondre l’identifiant unique de l’unité d’enquête. Nous avons calculé les violations de protocoles pour chaque question à partir des données de vérification sur place et d’audit audio. Pour les scores de vérification sur place, nous avons calculé des moyennes au niveau de la question pour chaque enquêteur. Enfin, pour les vérifications à haute fréquence, nous avons regroupé les contrôles au niveau de l’enquêteur.
Nous avons ensuite utilisé ces contrôles au niveau des questions pour générer nos indicateurs de qualité des données au niveau de l’enquêteur. Pour les indicateurs basés sur les proportions, nous avons additionné le nombre de violations sur toutes les questions et les avons divisés par le nombre total de questions pour générer des proportions unifiées. Pour le score de vérification sur place, nous avons pris une moyenne de tous les scores reçus par un enquêteur. Le jeu de données final que nous avons produit contenait tous les indicateurs au niveau de l’enquêteur.
Ensuite, nous avons construit des matrices de corrélation à deux niveaux – groupes et indicateurs (comme défini dans le tableau ci-dessus).
La matrice de corrélation des groupes de qualité des données a été utilisée pour dériver des pondérations basées sur les données à un niveau élevé. Nous avons utilisé une approche appelée pondération par covariance inverse (ICW), dans laquelle nous avons produit une matrice de corrélation des groupes, inversé les valeurs, additionné les entrées des lignes pour tous les groupes, et enfin, multiplié chaque somme par un multiplicateur commun pour arriver aux pondérations finales des groupes. Par exemple, si une ligne dans la matrice de corrélation inverse pour un groupe ajoutait jusqu’à 1,34, nous les avons multipliées par un multiplicateur de 11,5 pour arriver à une pondération de 15.
La principale constatation de la deuxième matrice de corrélation au niveau des indicateurs était que le score global de vérification sur place était fortement corrélé avec le score de vitesse de vérification sur place, le score de sondage, le score de confort et le score de protocole. En conséquence, nous avons décidé de supprimer les quatre scores granulaires pour minimiser les doubles pénalités aux enquêteurs et avons utilisé le score global dans notre indice final.
Maintenant que nous avions à la fois les pondérations subjectives et basées sur les données, l’équipe s’est réunie pour réfléchir à différentes options de pondération.
Finalement, nous avons utilisé la méthode de pondération par covariance inverse décrite à l’étape 3 pour dériver les pondérations des groupes. Nous avons remarqué que les vérifications à haute fréquence étaient pondérées plus fortement que les vérifications rétrospectives en personne et par téléphone par cette méthode, mais nous avons décidé de les pondérer moins car l’équipe avait unanimement convenu qu’elles devaient être les moins pondérées. Nous avons surpondéré les vérifications rétrospectives en personne et par téléphone (qui étaient toutes deux pondérées de manière égale au départ) parce que nous avons convenu que les deux étaient des mesures importantes de la performance des enquêteurs, non loin derrière les vérifications sur place et les audits audio. Au sein de chaque groupe, nous avons suivi une approche similaire pour attribuer des pondérations qui s’ajouteraient au poids global du groupe. Le taux de non-conformité des audits audio était pondéré plus fortement que la violation du protocole d’audit audio, et les vérifications des valeurs aberrantes et logiques étaient pondérées plus fortement que les « je ne sais pas » et les refus. Le graphique ci-dessous résume les pondérations que nous avons attribuées à chaque indicateur (en jaune) et groupe (en bleu clair).
Avant d’appliquer les indices au jeu de données au niveau des enquêteurs que nous avions compilé, il y avait deux problèmes que nous devions résoudre.
Après avoir dérivé l’indice, nous avons calculé quel serait le score de l’indice de qualité des données pour chacun de nos enquêteurs et analysé la distribution. En moyenne, les enquêteurs ont un score moyen de qualité des données de 80,44% et une médiane de 80,81%. Les scores variaient de 59,74% à 92,12%.
Nous croyons que notre score d’indice de qualité des données sera un moyen simple et utile d’évaluer la qualité des données d’un enquêteur. L’indice prend en compte un ensemble de contrôles de qualité des données effectués dans chaque enquête et pondère certains contrôles plus que d’autres en fonction de leur importance. Nous prévoyons d’utiliser ce score pour suivre la performance de qualité des données des enquêteurs au fil du temps et créer des structures de bonus pour inciter à une meilleure performance.
5 December 2024
4 December 2024
16 October 2024
7 July 2024
9 March 2023
30 June 2022