- Home
- Expertises
- La fusion statistique, une réponse efficace à la problématique de données manquantes
La fusion statistique, une réponse efficace à la problématique de données manquantes
"Fusion de fichiers d'enquêtes"
Par Aurélie Vanheuverzwyn, directrice exécutive - Data et Méthodes - Médiamétrie
Le secteur des enquêtes et des sondages d’opinion est confronté à une baisse de plus en plus importante des taux de réponse. Cette baisse s’explique notamment par la croissance des sollicitations et la multiplication des modes de contacts utilisés. De plus, les réflexions citoyennes qui ont précédé l’entrée en vigueur le 25 mai 2018 du Règlement Général européen sur la Protection des Données ont fait prendre conscience aux citoyens de la valeur des informations les concernant.
Dans ce contexte, le statisticien doit innover en permanence dans la collecte des données, proposer des questionnaires plus simples et plus courts et des modes de collecte adaptés et ce afin de limiter le fardeau de réponse (response burden en anglais).
Ainsi, plutôt que de recueillir l’ensemble des informations souhaitées auprès d’un unique échantillon, on sera parfois contraint ou on pourra choisir de collecter une partie des variables d’intérêt auprès d’un premier échantillon et l’autre partie auprès d’un second échantillon, disjoint du premier. L’enjeu sera alors de combiner ces sources d’information multiples de manière à obtenir une information complète.
C’est pour répondre à cette problématique qu’ont été introduites les méthodes de fusion statistique de données. Apparues au milieu des années 60, leur usage s’est grandement répandu dans les années 80-90 dans le domaine des études de marché et d’audience car elles offrent une réponse économique et pragmatique à un besoin croissant d’informations. économique car un recueil complet peut s’avérer complexe et donc coûteux et pragmatique car le résultat des fusions est un fichier complet simple d’utilisation et de traitement par des logiciels standard.
La fusion statistique, parfois appelée appariement statistique, (statistical matching ou data fusion en anglais) est une approche basée sur un modèle pour produire des informations croisées sur des variables collectées via plusieurs sources, généralement des enquêtes, issues de la même population, par opposition aux croisements informatiques de fichiers (exact matching ou record linkage en anglais) qui visent à identifier des unités identiques au sein de différents fichiers.
Et pour en savoir plus : découvrez le chapitre qu'Aurélie Vanheuverzwyn a consacré à la fusion de fichiers d'enquête, dans l'ouvrage Données manquantes publié par la SFdS aux éditions Technip en juin 2022.
des médias
edition
definitions