{"id":10687,"date":"2016-11-22T16:57:23","date_gmt":"2016-11-22T15:57:23","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=10687"},"modified":"2019-06-18T10:36:31","modified_gmt":"2019-06-18T08:36:31","slug":"rapprocher-deux-bases-donnees","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/rapprocher-deux-bases-donnees","title":{"rendered":"Billet technique : Comment rapprocher deux bases de donn\u00e9es"},"content":{"rendered":"\n<p>Le rapprochement de bases de donn\u00e9es est un sujet technique \net d\u00e9licat qui d\u00e9passe le cadre de l\u2019activit\u00e9 de l\u2019OCLTI, il se pose \u00e0 \nchaque fois que l\u2019on veut comparer et \u00e9tudier des bases de donn\u00e9es \npartageant de l\u2019information mais ne respectant pas la m\u00e8me nomenclature.\n C\u2019est un cas tr\u00e8s courant et le fait de pouvoir associer deux bases de \ndonn\u00e9es construites s\u00e9par\u00e9ment fait partie de la richesse du mouvement \nactuel autour de l\u2019utilisation des donn\u00e9es. Deux bases peuvent par \nexemple apporter une information compl\u00e9mentaire sur une liste \nd\u2019individus, il est int\u00e9ressant de fusionner ces deux bases. Cependant, \nun m\u00e8me individu peut \u00e8tre \u00e9crit de plusieurs fa\u00e7ons : M. Vincent \nDurrand ; Monsieur Durrand V. ; Vincent (Thomas) Durant ; Durrand \nVincent Thomas. Si les bases de donn\u00e9es sont de tailles raisonnables et \nles nomenclatures assez proches, une analyse humaine sera suffisante \nmais dans certains cas, le temps d\u2019analyse manuel sera tr\u00e8s long et \ns\u2019accompagnera in\u00e9vitablement d\u2019erreurs.<\/p>\n\n\n\n<p>L\u2019utilisation <strong>d\u2019algorithmes de matching de cha\u00eenes de caract\u00e8res<\/strong> peut alors apporter une r\u00e9ponse \u00e0 ce probl\u00e8me. L\u2019\u00e9quipe de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es a d\u00e9cid\u00e9 d\u2019utiliser la <a href=\"https:\/\/dedupe.readthedocs.io\/en\/latest\/\">librairie python Dedupe<\/a> pour le traiter.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"le-probl\u00e8me-technique\">Le probl\u00e8me technique<\/h3>\n\n\n\n<p>Rapprocher deux bases de donn\u00e9es est un exercice souvent plus \ncompliqu\u00e9 qu\u2019il n\u2019y para\u00eet. Il faut un peu de virtuosit\u00e9 pour faire en \nsorte qu\u2019une machine rep\u00e8re les noms similaires aussi bien qu\u2019un \u00e8tre \nhumain.<\/p>\n\n\n\n<p>En effet, m\u00e8me si elles traitent de sujets communs et ont une \nvariable commune (un nom de d\u00e9partement, un label, un nom, etc.) tr\u00e8s \nsouvent, aucun r\u00e9f\u00e9rentiel commun est appliqu\u00e9, cette variable commune \nn\u2019est pas codifi\u00e9e de la m\u00e8me fa\u00e7on dans les deux bases. Parfois, il \nn\u2019existe pas de r\u00e9f\u00e9rence suffisamment l\u00e9gitime et chacun utilise sa \npropre nomenclature. Parfois, c\u2019est lors de la saisie des donn\u00e9es que \ndes erreurs se produisent.<\/p>\n\n\n\n<p>Par exemple, la fusion de deux bases de donn\u00e9es avec des noms de \nd\u00e9partements fran\u00e7ais sera un travail plus cons\u00e9quent si les \nd\u00e9partements ont \u00e9t\u00e9 \u00e9crits avec un nom en minuscule pr\u00e9c\u00e9d\u00e9 par le \nnum\u00e9ro du d\u00e9partement et un trait d\u2019union dans l\u2019une des bases (ex. \n65-Hautes-Pyr\u00e9n\u00e9es) et avec des noms en majuscule sans accent et sans \ntraits d\u2019unions dans l\u2019autre (HAUTES PYRENEES). Cet exemple est r\u00e9solu \nrapidement par un petit algorithme mais il demande une op\u00e9ration \nsp\u00e9cifique.<\/p>\n\n\n\n<p>Cette op\u00e9ration peut s\u2019av\u00e9rer bien plus complexe lorsque l\u2019on doit \nutiliser une base de donn\u00e9es agr\u00e9geant plusieurs sources. Par exemple, \nune base de donn\u00e9es avec des contenus de m\u00e9dicaments comme la <a href=\"https:\/\/www.data.gouv.fr\/fr\/datasets\/base-de-donnees-publique-des-medicaments-base-officielle\/\">base publique des m\u00e9dicaments<\/a>\n m\u00e8lera plusieurs habitudes dans les champs litt\u00e9raux. Le label \u201cUne \nboite de six comprim\u00e9s\u201d utilisera parfois pour \u201ccomprim\u00e9s\u201d des \nabr\u00e9viations qui seront vari\u00e9es suivant les lignes (\u201ccomp\u201d, \u201ccomp.\u201d, \n\u201ccomps\u201d, \u201ccp\u201d, et\u201dc.\u201d). Autant un \u00e8tre humain (XXXr\u00e8d\u00e9XXX) est capable \nde comprendre que \u201cUne boite de six comprim\u00e9s\u201d et \u201c1 bte; 6 comp\u201d \nd\u00e9signent la m\u00e8me chose, autant cela peut troubler un programme \ninformatique qui doit traiter des milliers de lignes. Comment exprimer \u00e0\n une machine que l\u2019on souhaite obtenir la liste exhaustive de tous les \nm\u00e9dicaments vendus en boites de six comprim\u00e9s.<\/p>\n\n\n\n<p>\u00c0 ces diff\u00e9rences de notation, s\u2019ajoute le fait que lorsque l\u2019on \nn\u2019utilise pas un r\u00e9f\u00e9rentiel d\u00e8s la saisie des donn\u00e9es, des erreurs \nhumaines peuvent s\u2019introduire et l\u2019on peut voir appara\u00eetre des \n\u201ccomprime\u201d, ou des \u201ccoprim\u00e9s\u201d. Enfin, les donn\u00e9es num\u00e9riques que l\u2019on \npeut manipuler sont parfois issues d\u2019une op\u00e9ration de num\u00e9risation au \ncours de laquelle des erreurs peuvent aussi \u00e8tre commises. Lors de \nl\u2019utilisation d\u2019une m\u00e9thode d\u2019<a href=\"https:\/\/agd.data.gouv.fr\/2016\/11\/22\/rapprocher-deux-bases-donnees\/OCR\" class=\"broken_link\">https:\/\/fr.wikipedia.org\/wiki\/Reconnaissance_optique_de_caract%C3%A8res<\/a> : la lettre \u201ci\u201d peut \u00e8tre interpr\u00e9t\u00e9e comme une lettre \u201cl\u201d, un \u201c4\u201d comme un \u201c6\u201d, etc.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"un-cas-concret-pour-moderniser-ladministration\">Un cas concret pour moderniser l\u2019administration<\/h3>\n\n\n\n<p>Dans le cadre de sa mission d\u2019aide \u00e9 la d\u00e9cision des agents publics, \nl\u2019\u00e9quipe de datascientists de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es a \ntravaill\u00e9 tr\u00e8s concr\u00e8tement sur r\u00e9quisition judiciaire avec l\u2019Office \nCentral de Lutte contre le Travail Ill\u00e9gal (OCLTI) sur cet aspect \ntechnique.<\/p>\n\n\n\n<p><a href=\"http:\/\/www.gendarmerie.interieur.gouv.fr\/Notre-Institution\/Nos-missions\/Police-judiciaire\/Travail-illegal-OCLTI\" class=\"broken_link\">L\u2019Office Central de Lutte contre le Travail Ill\u00e9gal (OCLTI)<\/a>\n a pour mission de lutter contre le travail ill\u00e9gal, la traite des \u00e8tres\n humains aux fins d\u2019exploitation au travail et la fraude en mati\u00e8re \nsociale dont des fraudes au d\u00e9tachement intra-europ\u00e9en de travailleurs \nqui peuvent concerner des centaines et parfois des milliers de \ntravailleurs.<\/p>\n\n\n\n<p>Dans plusieurs de ses dossiers, l\u2019OCLTI doit rapprocher des bases de \ndonn\u00e9es pour identifier des victimes de fraude transnationale. Par \nexemple, \u00e0 partir d\u2019un listing de salari\u00e9, l\u2019OCLTI est amen\u00e9 \u00e0 v\u00e9rifier \nsi les employ\u00e9s sont bien inscrits \u00e0 la s\u00e9curit\u00e9 sociale en cherchant le\n nom de ces salari\u00e9s dans les bases de la s\u00e9curit\u00e9 sociale.<\/p>\n\n\n\n<p>Cette collaboration s\u2019est faite concernant deux \u00e9tudes. Pour la premi\u00e8re, les deux bases \u00e9taient :<\/p>\n\n\n\n<ul><li>une extraction de la base SIRDAR (syst\u00e8me informatiseI? de \nrecherche des d\u00e9tachements autoris\u00e9s et r\u00e9guliers du CLEISS) qui \nr\u00e9pertorie les formulaires de s\u00e9curit\u00e9 sociale d\u00e9livr\u00e9s \u00e0 des individus \nd\u00e9tach\u00e9s temporairement en France (environ 8000 noms).<\/li><li>une base compos\u00e9e d\u2019individus victimes \u00e9tablies par les enqu\u00e8teurs (environ 800 noms).<\/li><\/ul>\n\n\n\n<p>Ces deux bases \u00e9tant construites ind\u00e9pendamment, des individus \npeuvent \u00e8tre report\u00e9s diff\u00e9remment, des erreurs peuvent avoir \u00e9t\u00e9 \ncommises (Faute de frappe\/d\u2019orthographe ; Noms \u00e9 rallonge enregistr\u00e9s \npartiellement ; Deuxi\u00e8me pr\u00e9nom report\u00e9 ou non, etc.).<\/p>\n\n\n\n<p>Cela emp\u00e8che de rapprocher les deux bases de donn\u00e9es de fa\u00e9on exacte \net ais\u00e9e. Pendant 3 semaines, l\u2019\u00e9quipe de l\u2019OCLTI a rapproch\u00e9 \u00e9 l\u2019aide \nd\u2019un tableur ces deux bases de donn\u00e9es et a identifi\u00e9 91 personnes \npr\u00e9sentes dans les deux bases.<\/p>\n\n\n\n<p>Le besoin exprim\u00e9 par l\u2019OCLTI est de cr\u00e9er un outil automatique et \nefficace de matching de noms d\u2019individus (cha\u00e9ne de caract\u00e8res) entre \ndeux bases. Deux indicateurs permettent de juger des b\u00e9n\u00e9fices des \nm\u00e9thodes mises en \u00e9uvre par Etalab : le temps de calcul et le taux de \nd\u00e9tection. Le taux de d\u00e9tection de r\u00e9f\u00e9rence pour ce premier jeu de \ndonn\u00e9s est celui de l\u2019OCLTI, ce qui permet d\u2019\u00e9valuer le r\u00e9sultat obtenu \npar Etalab.<\/p>\n\n\n\n<p>Nous avons r\u00e9pliqu\u00e9 en tant que personne qualifi\u00e9e ce travail en utilisant la librairie Python intitul\u00e9e <a href=\"https:\/\/github.com\/datamade\/dedupe\">Dedupe<\/a>,\n qui automatise la d\u00e9duplication inexacte. Avant d\u2019utiliser \nl\u2019algorithme, une \u00e9tape de nettoyage des donn\u00e9es a \u00e9t\u00e9 men\u00e9e : \nsuppression des majuscules, des accents, des parenth\u00e8ses, etc.<\/p>\n\n\n\n<p>L\u2019identification dans ce type de probl\u00e8me se fait \u00e9 partir des \nvariables communes aux deux bases (nom, pr\u00e9nom, date de naissance \u2018). \nChaque variable caract\u00e9risant un individu peut \u00e8tre vu comme une cha\u00e9ne \nde caract\u00e8res. Pour chaque couple d\u2019individus et pour chaque variable, \nil est possible de calculer une distance entre ces cha\u00e9nes de \ncaract\u00e8res. Il en existe plusieurs, les plus r\u00e9pandues \u00e9tant :<\/p>\n\n\n\n<ul><li>la distance de Levenshtein : nombre minimum de caract\u00e8res \u00e9 modifier dans la cha\u00e9ne 1 pour arriver \u00e9 la cha\u00e9ne 2.<\/li><li>la distance de Hamming : nombre de caract\u00e8re diff\u00e9rents entre les cha\u00e9nes 1 et 2.<\/li><\/ul>\n\n\n\n<p>Il s\u2019agit de cette deuxi\u00e8me distance qui est utilis\u00e9e par d\u00e9faut par \nDedupe. Pour calculer une distance \u00e9\u00e9globale\u00e9\u00e9 entre deux noms, il faut \nagr\u00e9ger les distances associ\u00e9es \u00e9 chaque variable. La clef de \nr\u00e9partition permettant d\u2019agr\u00e9ger ces distances est calcul\u00e9e \nautomatiquement par la librairie Dedupe. En effet, cette librairie \nchoisit l\u2019importance de chaque variable en interrogeant l\u2019utilisateur : \nelle demande pour diff\u00e9rents couples d\u2019individus s\u2019il s\u2019agit bien de \nduplicatas ou non. Le temps de calcul est presque imm\u00e9diat (pour des \nbases de donn\u00e9es de taille raisonnable &lt; 100k).<\/p>\n\n\n\n<p>En ce qui concerne le cas concret de l\u2019OCLTI, le gain en terme de \ntemps de calcul est donc consid\u00e9rable (plusieurs jours contre quelques \nsecondes). Le gain en termes de d\u00e9tection est \u00e9galement int\u00e9ressant : \nDedupe d\u00e9tecte 120 individus potentiellement pr\u00e9sents dans les deux \nbases. Sur les 91 d\u00e9tect\u00e9s par l\u2019OCLTI, 85 le sont \u00e9galement par \nl\u2019algorithme. Les six personnes non identifi\u00e9es ont \u00e9chapp\u00e9 \u00e9 \nl\u2019algorithme car les noms \u00e9taient tr\u00e8s diff\u00e9rents et l\u2019OCLTI les avait \nd\u00e9tect\u00e9s gr\u00e8ce \u00e9 une connaissance approfondie des bases de donn\u00e9es. Nous\n pensons qu\u2019en int\u00e9grant l\u2019ensemble des donn\u00e9es disponibles, la m\u00e9thode \n\u00e9\u00e9Dedupe\u00e9\u00e9 n\u2019aurait eu aucun mal \u00e9 identifier ces six cas. C\u2019est l\u2019une \ndes am\u00e9liorations \u00e9 pr\u00e9voir. Parmi les 35 duplicata potentiels d\u00e9tect\u00e9s \npar Dedupe, 7 sont des duplicata qui semblent avoir \u00e9chapp\u00e9 \u00e9 l\u2019OCLTI. \nLe r\u00e9sultat global est donc tr\u00e8s positif : le temps diminue de fa\u00e9on \ncons\u00e9quente pour des r\u00e9sultats en am\u00e9lioration. Ces b\u00e9n\u00e9fices sont \nd\u2019autant plus importants que cette t\u00e8che pourrait \u00e8tre r\u00e9p\u00e9t\u00e9e par \nl\u2019OCLTI ou ses partenaires de la lutte contre le travail ill\u00e9gal \nplusieurs fois par an (de l\u2019ordre d\u2019une cinquantaine), ce qui n\u2019est fait\n aujourd\u2019hui que rarement par manque de moyens.<\/p>\n\n\n\n<p>Les travaux se poursuivent pour encore am\u00e9liorer la solution qui int\u00e9resse d\u2019autres services de contr\u00e8le du travail ill\u00e9gal.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le rapprochement de bases de donn\u00e9es est un sujet technique et d\u00e9licat qui d\u00e9passe le cadre de l\u2019activit\u00e9 de l\u2019OCLTI, il se pose \u00e0 chaque fois que l\u2019on veut comparer et \u00e9tudier des bases de donn\u00e9es partageant de l\u2019information mais ne respectant pas la m\u00e8me nomenclature. C\u2019est un cas tr\u00e8s courant et le fait de &hellip;<\/p>\n<p class=\"read-more\"> <a class=\"\" href=\"https:\/\/preprod.etalab.gouv.fr\/rapprocher-deux-bases-donnees\"> <span class=\"screen-reader-text\">Billet technique : Comment rapprocher deux bases de donn\u00e9es<\/span> Lire la suite\u00a0\u00bb<\/a><\/p>\n","protected":false},"author":21,"featured_media":10688,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","theme-transparent-header-meta":"default","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":""},"categories":[271],"tags":[273],"uagb_featured_image_src":{"full":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14.jpg",805,453,false],"thumbnail":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14-150x150.jpg",150,150,true],"medium":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14-300x169.jpg",300,169,true],"medium_large":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14-768x432.jpg",768,432,true],"large":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14.jpg",805,453,false],"1536x1536":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14.jpg",805,453,false],"2048x2048":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14.jpg",805,453,false],"rpwe-thumbnail":["https:\/\/preprod.etalab.gouv.fr\/wp-content\/uploads\/2019\/06\/image-agd14-45x45.jpg",45,45,true]},"uagb_author_info":{"display_name":"Alexis Eidelman","author_link":"https:\/\/preprod.etalab.gouv.fr\/author\/alexis"},"uagb_comment_info":0,"uagb_excerpt":"Le rapprochement de bases de donn\u00e9es est un sujet technique et d\u00e9licat qui d\u00e9passe le cadre de l\u2019activit\u00e9 de l\u2019OCLTI, il se pose \u00e0 chaque fois que l\u2019on veut comparer et \u00e9tudier des bases de donn\u00e9es partageant de l\u2019information mais ne respectant pas la m\u00e8me nomenclature. C\u2019est un cas tr\u00e8s courant et le fait de\u2026","_links":{"self":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10687"}],"collection":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/users\/21"}],"replies":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/comments?post=10687"}],"version-history":[{"count":1,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10687\/revisions"}],"predecessor-version":[{"id":10689,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/posts\/10687\/revisions\/10689"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/media\/10688"}],"wp:attachment":[{"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/media?parent=10687"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/categories?post=10687"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/preprod.etalab.gouv.fr\/wp-json\/wp\/v2\/tags?post=10687"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}