Rétrospective 2020 #1/6 : Lab IA, datascience et intelligence artificielle pour l’administration

Ce blogpost initie une série de rétrospectives de l’année 2020 autour d’axes de travail d’Etalab : ouvrir les codes sources, ouvrir et faire circuler les données publiques, accompagner les administrations à travers le programme EIG, organiser la production des données, accompagner les administrations sur l’explicabilité et la redevabilité des algorithmes.

Après une année de préfiguration en 2019, le Lab IA s’est développé en 2020 autour de trois grandes missions : 

  1. Accompagner des administrations pour expérimenter et déployer l’intelligence artificielle ;
  2. Développer des ressources mutualisées en intelligence artificielle au bénéfice des administrations ;
  3. Animer l’écosystème IA de l’administration.

Voici un aperçu des réalisations du Lab IA en 2020 : 

1. Accompagner les administrations pour expérimenter l’intelligence artificielle

11 administrations ont été accompagnées pendant 12 mois pour expérimenter l’IA. Suite au succès de la saison 1 des 6 projets sélectionnés pour être expérimentés dans les services publics en 2019, un deuxième appel à manifestation d’intérêt pour expérimenter l’intelligence artificielle (« AMI-IA 2 ») organisé avec la DITP a permis de sélectionner 15 nouveaux projets dans des domaines clés tels que l’environnement, la justice, la sécurité, l’économie, la santé ou la lutte contre la fraude. 

La chambre des métiers et de l’artisanat de Nouvelle Aquitaine, le Centre hospitalier de Bordeaux, le Conseil d’État, la Direction générale de la santé ou encore l’INERIS ont déjà pu présenter les résultats des travaux engagés lors du mois de l’innovation publique. Les supports de présentation et rediffusions sont disponibles ici.

Les projets de la direction générale de la gendarmerie nationale, de la direction générale des collectivités locales, de la direction générale des entreprises, de l’ANSSI, de l’institut de recherche et de sûreté nucléaire (IRSN) et de l’Insee se terminent d’ici février 2021 : les restitutions des projets auront lieu en ligne prochainement et sont l’occasion de découvrir les outils développés et d’échanger avec les porteurs de projets sur leurs résultats.

Enfin, le SHOM, la Cour de cassation et l’IGN bénéficient d’un accompagnement scientifique dans le cadre d’une collaboration avec l’INRIA. Les résultats pourront être présentés à la fin de l’année 2021.Grâce à l’apport direct de la recherche, ces projets ont l’objectif de développer un prototype fonctionnel au service de l’action publique. « En faisant appel au monde la recherche, nous avons plus d’interactions possibles qu’avec un prestataire ; une réflexion sur les outils et les performances nécessaires étant donné le type de données que l’on utilise. On teste des idées, on tente des approches : on a la flexibilité nécessaire pour expérimenter » explique Julian Le Deunf, de l’équipe projet du Shom. 

Au delà du développement d’algorithmes spécifiques, le Lab IA et la DITP proposent aussi aux porteurs de projets accompagnés une série d’ateliers permettant d’appréhender les différents aspects de l’intelligence artificielle. Les porteurs de projets ont ainsi pu bénéficier d’une introduction à l’IA, d’un atelier « Vis ma vie de data scientist » avec des mini-formations aux outils du data scientist (visualisation des données, traitement du langage naturel et apprentissage machine), d’un atelier sur les enjeux de l’explicabilité ou encore d’un atelier sur les biais algorithmiques

Cinq des six projets sélectionnés par l’appel à projets IA en 2019 se sont poursuivis en 2020 : sur les six projets accompagnés, cinq ont permis de développer un algorithme d’IA qui a pu être testé avec les agents sur le terrain. « Suite à cette expérimentation et grâce à des financements internes, nous avons pu améliorer le modèle en augmentant le nombre d’annotations, en rajoutant des zones de détection de manière manuelle (zones à enjeux) et en comparant l’existence des objets déclarés dans le temps. », expliquait Philippe Allamand à propos de l’outil de détection automatique des irrégularités d’occupation des sols de la Direction départementale des territoires de l’Hérault (DDTM), lui des projets AMI-IA 1, lors de sessions de partages d’expériences organisées en ligne pendant l’année en coopération avec la DITP.

Les prochaines restitutions auront lieu en ligne les jeudi 11 février et jeudi 4 mars de 16h à 17h : plus d’infos et inscriptions ici

2. Créer des outils et ressources d’IA accessibles aux administrations 

En consultation avec les administrations, le Lab IA a initié plusieurs outils open source cette année, qui ont vocation à être réutilisés et partagés :

  • Outil d’IA de pseudonymisation et ouverture des décisions de justice. De nombreuses administrations publiques sont confrontées à des problèmes de pseudonymisation dès lors qu’elles ont à publier des documents textuels contenant des données à caractère personnel. C’est dans ce cadre que le Lab IA d’Etalab a développé un outil d’intelligence artificielle de pseudonymisation en accompagnant en 2019 le Conseil d’État, qui publie en open data des décisions de justice administrative. Cet outil est open-source (disponible ici) et peut donc être librement réutilisé pour d’autres projets de pseudonymisation. Ces documents peuvent être des décisions de justice mais aussi des actes administratifs, des procès-verbaux, des notes, etc. 
  • Pour une IA francophone (PIAF) : du modèle IA à l’application avec service-public.frEntre octobre 2019 et juin 2020, l’équipe de PIAF a collecté et publié un jeu de données d’entraînement francophone grâce à plus de 9500 annotations et la mobilisation de plus de 700 contributeurs. Ce travail a donné lieu à la publication d’un article de recherche dans une conférence spécialisée (voir ici). Depuis juin 2020, l’équipe PIAF développe un moteur de questions-réponses francophone et explore les usages potentiels de cette technologie dans l’administration. L’équipe a notamment développé un prototype avec service-public.fr pour poser directement des questions à la base documentaire. En 2021, l’objectif sera d’accompagner d’autres administrations pour utiliser ces technologies et de déployer cette technologie en production.

Deux guides ont aussi été développé pour accompagner les administrations dans l’utilisation de l’intelligence artificielle : 

  • Comment utiliser l’IA pour pseudonymiser des documents ? Pour accompagner la publication de l’outil technique de pseudonymisation, nous avons publié un guide qui expose ce qu’est la pseudonymisation de documents textuels et, lorsque c’est possible, l’utilisation de l’IA pour la mettre en œuvre. Voir le guide ici
  • Préparer et conduire votre campagne d’annotation. De nombreux projets d’IA nécessitent une phase d’annotation, où des experts « métier » mobilisés attribuent à chaque donnée une ou plusieurs étiquettes qui lui correspond. Plus de la moitié des projets lauréats cette année ont nécessité une phase d’annotation. Ce guide présente les étapes clés pour obtenir des données annotées de qualité, quelques bonnes pratiques afin d’y parvenir, et des exemples de projets d’IA dans l’administration. Voir le guide ici.
3. Animer la communauté des acteurs de l’IA pour la sphère publique 
Les rediffusions des datadrinks sont accessibles dans les infolettres

De plus en plus nombreuse, la communauté de l’IA pour la sphère publique s’est créée autour des data scientists de l’administration, porteurs de projets d’IA, experts métiers de l’administration, agents publics intéressés par la data science et l’IA, et chercheurs en sciences des données et en éthique de l’IA (inscriptions à la liste de diffusion ici).

Elle se retrouve autour de datadrinks en virtuel dans l’année, qui ont permis de rassembler en 2020 plus de 350 participants autour de plus de 20 initiatives data science et IA dans l’administration portant sur des sujets variés. Les rediffusions et supports de présentation sont disponibles dans les infolettres. Le dernier datadrink de l’hiver a permis d’échanger sur les projets de la Cour des Comptes, l’Agence nationale de la sécurité des systèmes d’information, et l’Agence Française de Développement (rediffusion ici). 

Une infolettre mensuelle autour de l’IA dans l’administration rassemble également des retours d’expériences, actualités, appels à projets, ressources et offres d’emploi (contenu des infolettres précédentes ici). Les partages d’expérience incluent par exemple des retours des porteurs de projets IA accompagnés en 2019 1 (annotation collective avec l’Autorité de sûreté nucléaire), des retours de ceux lancés avant et pendant le confinement (semaine d’immersion au Conseil d’Etat, création d’un dossier patient fictif au CHU de Bordeaux, immersion terrain à la Gendarmerie nationale) ou des focus particuliers pour rencontrer des équipes des projets et leurs initiatives (identifier les molécules contaminant l’environnement avec l’INERIS, protéger les administrations des cyberattaques avec l’ANSSI). 

Perspectives 2021 : poursuite des expérimentations et appels à projets 

En 2021, les projets sélectionnés et accompagnés en 2020 se terminent et une phase d’évaluation en coopération avec la DITP débute. Celle-ci permettra aux porteurs de projets de tester les outils développés directement avec une mise en situation pour les utilisateurs finaux. Les outils une fois testés sur le terrain par des usagers ou des agents permettront de documenter la pertinence d’une généralisation ou d’une industrialisation de ces technologies. L’industrialisation du projet, l’ajustement des algorithmes grâce à la prise en compte des retours des utilisateurs, l’hébergement des applications dans les systèmes informatiques internes aux administrations, la publication des codes en open source, la recherche de financements et les extensions possibles à d’autres services ou d’autres territoires font partie des perspectives des projets expérimentés cette année. 

De nouveaux projets bénéficieront cette année d’un accompagnement pour expérimenter l’IA, notamment en bénéficiant de l’apport de la recherche avec une équipe dédiée de chercheurs de l’INRIA, afin de développer des prototypes fonctionnels pour les services publics.

Initié en 2020, le « format clinique » du Lab IA continuera de répondre aux besoins des administrations en prenant un temps dédié pour aider une équipe projet à trouver des solutions à un problème précis. Ce format a aussi permis d’initier en parallèle trois stages de six mois pour répondre aux besoins des administrations grâce au partenariat du Lab IA avec l’INRIA. Les équipes de Signaux Faibles, qui détecte la défaillance des entreprises, celles du BRGM qui souhaitent mettre en place un agent conversationnel pour que les citoyens puissent directement questionner les bases de données existantes sur la qualité de l’eau et la quantité d’eau dans leurs régions (rivières et nappes phréatiques), et celles de PIAF (Pour une IA francophone), bénéficieront en 2021 de stagiaires encadrés à la fois par le Lab IA et l’INRIA pour explorer des solutions innovantes.  Pour participer au format clinique, les administrations peuvent nous contacter directement.

Les administrations qui souhaitent initier ou poursuivre leur expérimentation en intelligence artificielle peuvent également candidater à l’appel à projet « Cycle de vie de la donnée » initié dans le cadre du plan de relance. Celui-ci s’adresse aux directions métiers d’administration ou opérateurs en charge d’une politique publique qui souhaitent développer le recours à la donnée dans la décision et la performance publique, y compris en intelligence artificielle. 

Le Lab IA travaillera également à consolider la communauté de l’IA dans l’administration : partage d’expériences et de bonnes pratiques, invitations à des réflexions sur des initiatives data science et IA dans l’administration en cours ou terminées, partage des actualités et offres d’emploi, grâce à des échanges réguliers en ligne. Si vous souhaitez présenter une initiative datascience ou IA dans l’administration dans un prochain datadrink, n’hésitez pas à nous contacter. 

Pour nous contacter : lab-ia@data.gouv.fr

Inscriptions à la liste de diffusion du Lab IA (datadrinks et infolettres)