Archives de l’auteur : gansben

Compte rendu du Scrapathon Chilien

Se tenait le samedi 29 juin l’édition chilienne du Scrapathon.  Compte rendu.

25 journalistes, développeurs et ingénieurs ont participé samedi 29 juin à l’édition chilienne du Scrapathon. 

Les équipes étaient constituées de 2 à 5 personnes, avec une moyenne de 4 personnes.

L’accueil des personnes, la présentation de l’événement et la présentation des équipes se sont déroulés de 10h à 11h. De 11h à 12h a eu lieu le cours de scraping avec python, avec une dizaine de personnes assistant au cours.

Les équipes ont ensuite travaillé de 12h à 19h.

De 19h à 20h ont eu lieu les présentations des travaux. 4 membres du jury étaient sur place, les autres sont basés dans d’autres pays d’Amérique Latine.

L’accent avait été mis sur la représentation/visualisation des données :

Lien vers le Dashboard avec les divers projets :

1) « Carte scolaire » – « Busco Escuela »  Projet vainqueur du Scrapathon Chilien

Accéder au projet  : http://graves.cl/scrapaton/

Description
Le système chilien est très différent du système français. L’enseignement privé y est très présent.

Cette équipe propose une cartographie de Santiago répertoriant les écoles/collèges, privés et publics, en fonction du nombre de points obtenus à divers examens (2 en primaire et un en fin de collège, équivalent brevet je pense). Il propose de regarder la distance entre le domicile et les écoles, en fonction de leur « score ». On peut ainsi faire le type de recherche suivante : j’aimerais scolariser mon enfant dans un collège qui a plus de 15/20 de moyenne à l’examen, quelle distance minimum va-t-il devoir parcourir ? Combien vais-je devoir payer (coût des études + coût du transport) ?

Les données proviennent du Ministère de l’Education.

L’équipe gagnante se verra attribuer una MicroGrant de 1000 $US de la part du programme Knight Mozilla Open News, afin de l’aider à transformer le prototype en produit « fonctionnel » pouvant être publié par les médias et être ré-utilisé par d’autre programmeurs et organisations civiques.

2) Santé et qualité de vie pour les personnes du troisième âge

Cartographie du Chili où on peut voir des indicateurs de santé et qualité de vie des personnes âgées au Chili.
Notamment la répartition des gérontologues et voir qu’elle n’est pas du tout corrélée au nombre de personnes âgées dans chaque région.
Les données proviennent du Ministère de la Santé.

3) Vote des parlementaires

Widgets qui illustrent par exemple pour quels projets de loi ont voté les parlementaires.

4) Les primaires selon Twitter

Les primaires – de droite comme de gauche – (en vue des présidentielles en novembre) se sont déroulées hier au Chili. Avant cela il y a eu des débats télévisés et donc pas mal de commentaires sur twitter.
Cette équipe a proposé un outil de visualisation de la perception que les personnes ont (via tweets) des différents candidats.

5) Lien entre les politiques et les chefs d’entreprises (ou personnes siégeant dans les conseils d’administration des entreprises)
Pas de visualisation, ils se sont vraiment concentrés sur le scraping.

6) Application de réalité augmentée avec cartographie des activités culturelles

Projet ambitieux mais non abouti.

Un lien vers la page Meetup de l’événement :

En partenariat avec INRIA Chili et Chloé Rolland

Viva el Scrapaton ! Samedi 29 juin : le Scrapathon s’exporte au Chili.

INRIA CHILE organise samedi 29 juin la première édition chilienne du Scrapathon.

Rebaptisé Scrapaton, cet événement se tiendra de 10h à 20h à l’Université Diego Portales à Santiago du Chili et une récompense de 1000 $ viendra récompenser la meilleure équipe.

Tout savoir sur cet événement :

http://www.meetup.com/HacksHackersChile/events/121553142/?a=me1_grp&rv=me1&_af_eid=121553142&_af=event

Première Livraison du Scrapathon

Les premiers résultats du Scrapathon commencent à arriver. Avec un peu de retard, les équipes ont commencé à communiquer les données scrapées.

1ère livraison : la consommation électrique en France du 18 novembre 2010 au 11 juin 2013 référencée sur le site RTE, un travail effectué par Paul.

Consulter et télécharger les données sur DATA PUBLICA

 

Communiqué – Premiers résultats du Scrapathon

Mercredi 12 juin dernier Data Publica et ses partenaires ont réuni au Dojoboost 41 boulevard Saint-Martin à Paris une communauté de développeurs pour une épreuve ludique et unique, le Scrapathon, consacrée au recueil des données disponibles sur le web.

Avant le début des épreuves, ils étaient près de 50 journalistes, développeurs, ingénieurs, blogueurs et activistes à se réunir dès 16 heures pour se familiariser avec les techniques de scraping dont trois formations étaient dispensées.

Jean-Christophe Combaz, créateur du logiciel Outwit a donné un cours sur l’utilisation de l’un des outils disponibles les plus simples actuellement pour extraire et exporter des données.

La deuxième formation a été dirigée par Samuel Charron, ingénieur R&D chez Data Publica : consacrée aux techniques de scraping Python, elle a réuni une douzaine de personnes.

La troisième formation a été dispensée par Thomas Dudouet, ingénieur R&D chez Data Publica. Ce cours qui a réuni une demi douzaine de participants était centré sur les techniques de scraping Java.

A la suite de ces trois formations, Alan Walter, avocat spécialiste du domaine, a évoqué auprès des développeurs les bonnes pratiques ainsi que les problèmes juridiques à éviter pour un usage respectueux du recueil de données.

Encadrés par un groupe d’ingénieurs, 7 équipes ont alors travaillé de 19 heures à 23 heures 30 sur le recueil de données :

  • l’équipe 1 s’est concentrée sur le scraping de la carte scolaire à Paris

  • l’équipe 2 a travaillé sur les délibérations du conseil municipal à Paris

  • l’équipe 3 s’est penchée sur les données du site Ameli.fr

  • l’équipe 4 a extrait les données de consommation électriques nationales du site RTE

  • l’équipe 5 a commencé à recueillir les déclarations publiques d’intérêts des médecins de l’agence du médicament

  • l’équipe 6 a travaillé sur le site remixjobs pour essayer d’évaluer la part des stages et des CDI proposés

  • l’équipe 7 s’est attachée au site de la Haute Autorité de Santé pour extraire une liste des médecins certifiés

Presque toutes les équipes ont manqué de temps pour finaliser l’ensemble des tâches d’extraction qu’elles s’étaient fixées. Toutefois, elles se sont engagées à poursuivre leurs efforts et à livrer les données extraites dans les limites des conditions d’utilisation prévues par les sites scrapés.

Seule l’équipe 4 a réussi à extraire totalement dans le temps imparti les données concernant la consommation électrique nationale : un fichier détaillant la consommation électrique par quart d’heure du 16 novembre 2011 jusqu’au 9 juin 2013 sera diffusé jeudi 20 juin.

Dès que les autres équipes auront terminé leur travail de scraping, les données disponibles seront alors traitées et anonymisées si besoin, pour être ensuite diffusées comme prévu sur les sites Data-publica.com et nosdonnees.fr

A noter que samedi 29 juin se tiendra à Santiago du Chili une seconde édition du Scrapathon organisée par les équipes d’INRIA Chile.

Les sujets des épreuves

1. Publier la carte scolaire à Paris (collèges et primaire seulement)

Sources :

Difficulté : ***

1bis. Publier la carte scolaire à Marseille

Sources :

Difficulté : ***

2. Transport : recréer un fichier GTFS (le format standard dans l’open data transport) en combinant 2 sources d’informations : les stations (de bus, de métro) qui figurent dans Open Street Map et les horaires en scrappant les sites du réseau de transport.

1/ Les stations de métro TCL sur OSM: http://overpass-turbo.eu/s/iH (données dispo en XML dans l’onglet data)

2/ Un petit bout de script shell (curl/egrep) qui scrape une partie des horaires de métro et met ça dans un csv https://github.com/cquest/scrapathon

-> Simon Chignard

Difficulté : ** : équipe avec débutants pour récupérer les csv, développeurs confirmés créant le GTFS ensuite ?

3. Santé/service Liste des hôpitaux & classement de lutte contre les maladies nosocomiales

Site : http://www.platines.sante.gouv.fr/

Difficulté : * développeurs seulement

4. Services – Modes de gardes d’enfants en France

Quelles zones sont les mieux couvertes pour les gardes d’enfant  ? Lister les modes de garde site : http://www.mon-enfant.fr/

Difficulté : ** et ***

Commentaire : un peu complexe et beaucoup d’appels HTTP : une page de résultats par code postal, une page par organisme (accueil collectif, accueil famillial, lieu d’accueil parent-enfant, etc) + plusieurs pages pour obtenir les coordonnées des assistantes maternelles. Et donc il faut aussi une liste des codes postaux mais ça facile à avoir

5. Comptes des collectivités locales : Qui gère le mieux ?

Site : http://www.collectivites-locales.gouv.fr/

Difficulté : *

6. Energie : Consommation électrique par jour en France

Site : http://www.rte-france.com/fr/developpement-durable/eco2mix/consommation-d-electricite

Difficulté : **

7. Emploi public : Qui dans fonction publique recrute ? et quel type de contrat ?

Site : http://www.biep.fonction-publique.gouv.fr/common/jobSearch/showSearchOffer

Difficulté : **

8. Santé : déterminer le médecins en secteur 1 et 2 et eventuellement les projeter sur une carte

Site : http://ameli-direct.ameli.fr/modifier_votre_recherche_3.html

Difficulté : ***

9. Transports : site aéroport de paris : Quelles compagnies sont les plus actives ?

Site : http://www.aeroportsdeparis.fr/ADP/fr-FR/Passagers/Vols-Horaires-Compagnies/

Difficulté : **

10. Santé : Agence du médicament déclaration d’intérêt, les cumulards :

Ce site détaille les déclarations d’intérêts publiées sur le site de l »agence nationale du médicament

Site : https://icfidnet.ansm.sante.fr/Public/memb_idx.php

Difficulté : **

11. RATP – temps de passage via Wap Ratp -> précisions Gael Musquet

Difficulté : **

12. Les économistes et leurs liens avec les banques  : Analyse des fiches Wikipedia des économistes qui siègent aux conseils d’organismes privés -> Lien avec les conseils d’administration des banques, des sociétés du CAC 40

13. Les équipements sportifs en France : quelles sont les villes les mieux équipées (voir : est-ce corrélé au nombre des licenciés ?)

Site : http://www.res.sports.gouv.fr/

site : Wikipedia – sites

Difficulté : ***

Niveau débutant : *

Soit les listes étudiés pendant les exercices :

Soit agréger des données présentes sur des fichiers excel tels que :

cartes scolaires :

Haute garonne lycée  et collèges
Nice  voir site de l’inspection acédémique exemple &  exemple 2

Alpes maritimes exemple

Nantes : exemple

Programme du Scrapathon !

Demandez le programme ! Le voilà :

C’est toujours 41 boulevard Saint Martin 75010 Paris

16 heures : Accueil des participants aux formations de Scraping

Formation scraping débutants : salle rdc – Jean-Christophe Combaz d’Outwit

Formation scraping Python : salle rdc – Samuel Charron de Data Publica

Formation scraping Java : salle en sous-sol – Thomas Dudouet de Data Publica

18 heures – Présentation du programme de la soirée

Présentation de l’événement par les organisateurs

Présentation rapide des bonnes pratiques par Alan Walter, avocat

Répartition des équipes : sujets libres & sujets imposés

23h15 – Restitution

Présentation du travail des équipes

Prix du public – Prix du Jury