[Equipe 6] Les annonces d’emploi et de stage dans l’informatique

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°6 – mission : évaluer la part des stages et des CDI offerts selon le compétence demandée (Python, iOS, …) 

Membres de l’équipe : Constance, Gaëtan et François.

SafariScreenSnapz168Les job boards sont une véritable mine d’or pour évaluer la demande sur des compétences particulières. Nos scrappers se sont intéressés au site Remix Jobs qui recense principalement des offres d’emploi (ou de stage !) dans le domaine de l’informatique.

Leur objectif : récupérer les données pour être en mesure de les analyser et de les croiser. Un exemple de question : combien de stages proposés pour un CDI pour la compétence Python ? Et pour IOS ?

Où en sont-ils ?

L’heure fatidique d’évaluation des résultats approche 😉

Publicités

[Equipe 5] Les déclarations publiques d’intérêts de l’agence du médicament

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°5 – mission : récupérer les déclarations publiques d’intérêts des médecins de l’agence du médicament  

Membres de l’équipe : Franck, Alexandre et Guillaume.

SafariScreenSnapz167Le site de l’Agence nationale de sécurité du médicament et des produits de santé (ANSM) contient une base de données très intéressante : Fidnet, la base des déclarations publiques d’intérêts des médecins et experts engagés dans les actions de l’ANSM.

C’est quoi le problème ?

La « base » n’est en fait qu’une série de pages web qui recense pour chaque médecin concerné l’ensemble de ses déclarations publiques d’intérêt. On y retrouve notamment les relations avec les laboratoires pharmaceutiques, ainsi que le type de relation (sans rémunération, rémunération personnelle, etc.).

L’idée de nos scrappers : récupérer les données personne par personne pour pouvoir faire des statistiques et des requêtes à partir des données brutes.

Où en sont-ils ?

Ils ont repéré plusieurs autres sites qui proposent des déclarations publiques d’intérêt au-delà de celles déjà publiées sur le site de l’ANSM. Il y a donc l’opportunité aussi de faire du croisement de données sur le sujet.

[Equipe 4] La consommation électrique en France

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°4 – mission :  la consommation électrique en France

Membres de l’équipe : Paul, Arnaud, Baptiste

SafariScreenSnapz166Le site de RTE est une vraie mine d’or pour trouver de l’information sur la production et la consommation d’électricité en France. L’équipe 4 a notamment repéré une très intéressante visualisation dynamique des données en temps réel. Ils souhaitent pouvoir récupérer les données brutes pour en faire des analyses statistiques dans l’outil R.

C’est quoi le problème ?

Problème intéressant pour cette équipe, et assez unique : en naviguant sur le site, on s’aperçoit que les données brutes sont **déjà** disponibles sur le site de RTE… On apprend souvent, quand on prépare le bac, qu’il faut attentivement lire et relire le sujet avant de se lancer. Visiblement c’est un conseil tout aussi valable pour nos apprentis scrappers 😉

Où en sont-ils ?

Nous sommes en train de leur passer la nouvelle …

[Equipe 3] La forteresse Ameli

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°3 – mission :  la forteresse Ameli

Membres de l’équipe : Cédric, Martin et Franck

SafariScreenSnapz165Ah, la base Ameli ! Combien de batailles avons-nous mené en ton nom ? Plus sérieusement, cette 3ème équipe s’est donné pour mission de récupérer une partie des données publiées sur le site Ameli-Direct, comme avait pu le faire en leurs temps le projet Fourmi Santé, par exemple… Le sujet a bien sûr intéressé l’initiative Transparence Santé qui est venue se présenter lors du scrapathon.

C’est quoi le problème ?

Visiblement, nos scrappers ne sont pas les premiers à s’atteler à la base Ameli : les protections anti-scrapping sont multiples et souvent invisibles pour les internautes lambda que nous sommes. Ainsi le site génère un « token » valable uniquement pour quelques minutes, donc il faut régulièrement se reconnecter pour faire tourner son script.

La stratégie d’approche retenue est de partir sur un périmètre relativement restreint, avec une question précise : quels sont les dépassements d’honoraires pratiqués pour une opération de la cataracte dans 5 grandes villes de France ?

Où en sont-ils ?

Au sandwich. Signe que visiblement ils ne sont pas trop inquiets des protections mises en place autour de la forteresse Ameli, nos scrappers sont partis prendre des forces loin de leur clavier…  Affaire à suivre.

[Equipe 2] Les délibérations du conseil municipal

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°2 – mission :  publier les délibérations du conseil municipal

Membres de l’équipe : Perrine, Quentin, Noé

 Au #scrapathon #Paris une équipe relève le défi de scraper les delibs en pdf du Conseil de @paris. Bonne chance. Cc @lescrapathon

— J-Philippe Clément (@AgentNum) 12 juin 2013

SafariScreenSnapz164Vous connaissez sûrement NosDéputés, l’observatoire de l’activité parlementaire mis en place par Regards Citoyens. La mission de nos trois  scrapers en herbe consiste à mettre en place une service similaire afin d’évaluer l’action des 163 conseillers municipaux de la capitale. Le Conseil de Paris se réunit de 9 à 10 dois par ans, et la ville publie l’ensemble des décisions en projet à raison de 500 délibérations par séances…

C’est quoi le problème ?

Le problème: les fichiers libérés par la ville de Paris sont difficilement exploitables car sous format PDF…

Où en sont-ils ?

Nos scrapers ont réussi à rendre ces fichiers réutilisables par l’ordinateur en générant des fichiers au format .txt … une première étape.

[Equipe 1] La carte scolaire à Paris

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°1 – mission :  publier la carte scolaire à Paris

Membres de l’équipe : Thomas, Emmanuel, Vincent

SafariScreenSnapz163Créée en 1963, la carte scolaire avait initialement pour objectif de mieux répartir les élèves parmi les différents établissements scolaires, nous apprend Wikipedia. C’est aussi un sujet éternel de débat : faut-il l’assouplir – c’est à dire permettre aux parents de choisir l’école de leurs enfants – ou au contraire la maintenir ou la renforcer – pour garantir une certaine mixité sociale ?

Curieusement, la « carte » scolaire porte assez mal son nom, car nous ne disposons à Paris d’aucune carte précise sous un format réutilisable. C’est la mission de cette équipe !

C’est quoi le problème ?

La Mairie de Paris propose un site web dédié à la carte scolaire. En rentrant l’adresse de son domicile, on obtient l’établissement auquel son enfant est rattaché (la « sectorisation »). Un cas pratique : si je suis domicilié au 44 boulevard Saint Martin (l’adresse où se déroule ce scrapathon), le site m’indique que l’école élémentaire de rattachement est située 15, rue de Lancry dans le 10è.

Le problème : sauf à taper une par une l’ensemble des adresses parisiennes, il semble difficile de reconstituer cette fameuse carte scolaire …

Où en sont-ils ?

L’idée de départ : dans une rue, tous les numéros ne sont a priori pas rattaché à la même école. Les numéros 1 à 61 par exemple correspondent à une école,  63 à 111 une autre… La carte scolaire peut aussi couper une rue en deux, selon les numéros pairs ou impairs.

L’équipe a commencé par repérer en ligne un fichier qui fournit la sectorisation, mais uniquement pour les collèges – et non pour les écoles maternelles et primaires. Il va leur servir de base pour requêter quelques adresses sur le site de la Mairie de Paris…

Sources :

Les sujets des épreuves

1. Publier la carte scolaire à Paris (collèges et primaire seulement)

Sources :

Difficulté : ***

1bis. Publier la carte scolaire à Marseille

Sources :

Difficulté : ***

2. Transport : recréer un fichier GTFS (le format standard dans l’open data transport) en combinant 2 sources d’informations : les stations (de bus, de métro) qui figurent dans Open Street Map et les horaires en scrappant les sites du réseau de transport.

1/ Les stations de métro TCL sur OSM: http://overpass-turbo.eu/s/iH (données dispo en XML dans l’onglet data)

2/ Un petit bout de script shell (curl/egrep) qui scrape une partie des horaires de métro et met ça dans un csv https://github.com/cquest/scrapathon

-> Simon Chignard

Difficulté : ** : équipe avec débutants pour récupérer les csv, développeurs confirmés créant le GTFS ensuite ?

3. Santé/service Liste des hôpitaux & classement de lutte contre les maladies nosocomiales

Site : http://www.platines.sante.gouv.fr/

Difficulté : * développeurs seulement

4. Services – Modes de gardes d’enfants en France

Quelles zones sont les mieux couvertes pour les gardes d’enfant  ? Lister les modes de garde site : http://www.mon-enfant.fr/

Difficulté : ** et ***

Commentaire : un peu complexe et beaucoup d’appels HTTP : une page de résultats par code postal, une page par organisme (accueil collectif, accueil famillial, lieu d’accueil parent-enfant, etc) + plusieurs pages pour obtenir les coordonnées des assistantes maternelles. Et donc il faut aussi une liste des codes postaux mais ça facile à avoir

5. Comptes des collectivités locales : Qui gère le mieux ?

Site : http://www.collectivites-locales.gouv.fr/

Difficulté : *

6. Energie : Consommation électrique par jour en France

Site : http://www.rte-france.com/fr/developpement-durable/eco2mix/consommation-d-electricite

Difficulté : **

7. Emploi public : Qui dans fonction publique recrute ? et quel type de contrat ?

Site : http://www.biep.fonction-publique.gouv.fr/common/jobSearch/showSearchOffer

Difficulté : **

8. Santé : déterminer le médecins en secteur 1 et 2 et eventuellement les projeter sur une carte

Site : http://ameli-direct.ameli.fr/modifier_votre_recherche_3.html

Difficulté : ***

9. Transports : site aéroport de paris : Quelles compagnies sont les plus actives ?

Site : http://www.aeroportsdeparis.fr/ADP/fr-FR/Passagers/Vols-Horaires-Compagnies/

Difficulté : **

10. Santé : Agence du médicament déclaration d’intérêt, les cumulards :

Ce site détaille les déclarations d’intérêts publiées sur le site de l »agence nationale du médicament

Site : https://icfidnet.ansm.sante.fr/Public/memb_idx.php

Difficulté : **

11. RATP – temps de passage via Wap Ratp -> précisions Gael Musquet

Difficulté : **

12. Les économistes et leurs liens avec les banques  : Analyse des fiches Wikipedia des économistes qui siègent aux conseils d’organismes privés -> Lien avec les conseils d’administration des banques, des sociétés du CAC 40

13. Les équipements sportifs en France : quelles sont les villes les mieux équipées (voir : est-ce corrélé au nombre des licenciés ?)

Site : http://www.res.sports.gouv.fr/

site : Wikipedia – sites

Difficulté : ***

Niveau débutant : *

Soit les listes étudiés pendant les exercices :

Soit agréger des données présentes sur des fichiers excel tels que :

cartes scolaires :

Haute garonne lycée  et collèges
Nice  voir site de l’inspection acédémique exemple &  exemple 2

Alpes maritimes exemple

Nantes : exemple