Deux challenges sur des données publiques

L’ouverture des données par les administrations publiques permet à des jeunes datascientists d’exercer leurs talents. Des exemples récents le montrent. L’objectif peut avoir une dominante pédagogique et ludique mais peut aussi servir à montrer ce qu’il est possible de faire et suggérer des propositions d’amélioration pour les services publics.

En mai dernier, l’association FrenchData a organisé le temps d’une soirée un challenge appelé « Le meilleur datascientist de France » à l’école 42. L’objectif du challenge est de déterminer le prix d’un médicament à partir de ses caractéristiques. Les données utilisées sont des données ouvertes celles de la Base Publique des Médicaments. Ce challenge a été prolongé au-delà de soirée et sera ouvert jusqu’au 31 octobre 2016 sur la plateforme Datascience.net. Lors de la soirée de lancement, des tutoriels en R et en Python permettaient de prédire le prix d’un médicament avec en moyenne une erreur de 60%. Aujourd’hui, les meilleurs résultats atteignent les 10% d’erreur.

anap_challenge

Aujourd’hui c’est un nouveau challenge qui démarre avec données publiques. Cette fois-ci, il est organisé directement par une agence publique : l’Agence Nationale d’Appui à la Performance des établissements de santé et médico-sociaux (ANAP) et l’Agence technique de l’information sur l’hospitalisation (ATIH) mettent aux défis les datascientists de prédire les performances des établissements selon 5 composantes : qualité des soins, pratiques professionnelles, organisation des soins, ressources humaines et finances. A partir de données ouvertes les particpants ont jusqu’à début septembre pour montrer leur talent et peut-être remporter les récompenses promises aux trois premiers.