Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique - Archive ouverte HAL Accéder directement au contenu
Article Dans Une Revue Journal de la Société Française de Statistique Année : 2018

An Overview of Record Linkage Methods: Applications and Perspective on Health Data

Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique

Résumé

Record linkage has become a powerful tool for public health, since the rise of medical and administrative database or cohort (Loth, 2015). This process allows matching individual's information obtained from different databases which don't have necessarily a common identifier. Furthermore, if such common identifier exists it could take a long time to obtain the necessary approval to use it. In France, the NIR is the identifier which is the most likely to be an identifier at the national level. However, in order to use the NIR, it is still compulsory to obtain the authorization from the CNIL even after the change of law concerning the modernization of the French Healthcare system. This paper presents a broad set of methods to perform record linkage, in particular the method proposed by Fellegi and Sunter and its extensions. The aim is to give some guidelines to researchers and to introduce some approaches to incorporate uncertainty associated with the linkage in their analysis. Mots-clés : couplage/appariement indirect, bases de données médicales et administratives, réseau bayésien naïf, mo-dèle mixte.
Le couplage des bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des bases de données administratives et de cohortes (Loth, 2015). Cette procédure consiste à faire correspondre des informations concernant un individu issues de base de données différentes sans pouvoir utiliser un identifiant unique. En France, dans le cas des données médicales et administratives, le Numéro d'Identification au Répertoire (NIR) est un exemple d'identifiant susceptible d'être utilisé pour servir de clé de couplage. Cependant ce dernier restera, en dépit de la loi du 26 janvier 2016 de modernisation de notre système de santé, difficile d'accès en raison de sa qualité d'identifiant direct commun à de nombreuses bases de données. Nous présentons les méthodes de chaînage susceptibles d'être utilisées par des chercheurs, en nous concentrant sur le modèle génératif de Fellegi et Sunter qui est une approche non supervisée, ainsi que sur quelques méthodes issues de l'apprentissage statistique. En-fin nous présentons rapidement différentes approches pour réaliser une analyse statistique sur des données appariées et comment répercuter l'incertitude de l'appariement dans l'analyse.
Fichier sous embargo
Fichier sous embargo
Date de visibilité indéterminée
Loading...

Dates et versions

inserm-02015573 , version 1 (12-02-2019)

Identifiants

  • HAL Id : inserm-02015573 , version 1

Citer

Said Bounebache, Catherine Quantin, Eric Benzenine, Guillaume Obozinski, Grégoire Rey. Revue Bibliographique des Méthodes de Couplage des Bases de Données : Applications et Perspectives dans le Cas des Données de Santé Publique. Journal de la Société Française de Statistique, 2018, 159 (3), pp.79-123. ⟨inserm-02015573⟩
147 Consultations
1 Téléchargements

Partager

Gmail Facebook X LinkedIn More