Communiqué – Premiers résultats du Scrapathon

Mercredi 12 juin dernier Data Publica et ses partenaires ont réuni au Dojoboost 41 boulevard Saint-Martin à Paris une communauté de développeurs pour une épreuve ludique et unique, le Scrapathon, consacrée au recueil des données disponibles sur le web.

Avant le début des épreuves, ils étaient près de 50 journalistes, développeurs, ingénieurs, blogueurs et activistes à se réunir dès 16 heures pour se familiariser avec les techniques de scraping dont trois formations étaient dispensées.

Jean-Christophe Combaz, créateur du logiciel Outwit a donné un cours sur l’utilisation de l’un des outils disponibles les plus simples actuellement pour extraire et exporter des données.

La deuxième formation a été dirigée par Samuel Charron, ingénieur R&D chez Data Publica : consacrée aux techniques de scraping Python, elle a réuni une douzaine de personnes.

La troisième formation a été dispensée par Thomas Dudouet, ingénieur R&D chez Data Publica. Ce cours qui a réuni une demi douzaine de participants était centré sur les techniques de scraping Java.

A la suite de ces trois formations, Alan Walter, avocat spécialiste du domaine, a évoqué auprès des développeurs les bonnes pratiques ainsi que les problèmes juridiques à éviter pour un usage respectueux du recueil de données.

Encadrés par un groupe d’ingénieurs, 7 équipes ont alors travaillé de 19 heures à 23 heures 30 sur le recueil de données :

  • l’équipe 1 s’est concentrée sur le scraping de la carte scolaire à Paris

  • l’équipe 2 a travaillé sur les délibérations du conseil municipal à Paris

  • l’équipe 3 s’est penchée sur les données du site Ameli.fr

  • l’équipe 4 a extrait les données de consommation électriques nationales du site RTE

  • l’équipe 5 a commencé à recueillir les déclarations publiques d’intérêts des médecins de l’agence du médicament

  • l’équipe 6 a travaillé sur le site remixjobs pour essayer d’évaluer la part des stages et des CDI proposés

  • l’équipe 7 s’est attachée au site de la Haute Autorité de Santé pour extraire une liste des médecins certifiés

Presque toutes les équipes ont manqué de temps pour finaliser l’ensemble des tâches d’extraction qu’elles s’étaient fixées. Toutefois, elles se sont engagées à poursuivre leurs efforts et à livrer les données extraites dans les limites des conditions d’utilisation prévues par les sites scrapés.

Seule l’équipe 4 a réussi à extraire totalement dans le temps imparti les données concernant la consommation électrique nationale : un fichier détaillant la consommation électrique par quart d’heure du 16 novembre 2011 jusqu’au 9 juin 2013 sera diffusé jeudi 20 juin.

Dès que les autres équipes auront terminé leur travail de scraping, les données disponibles seront alors traitées et anonymisées si besoin, pour être ensuite diffusées comme prévu sur les sites Data-publica.com et nosdonnees.fr

A noter que samedi 29 juin se tiendra à Santiago du Chili une seconde édition du Scrapathon organisée par les équipes d’INRIA Chile.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s