Archives de l’auteur : schignard

And the winners are…

Et les premiers vainqueurs de ce scrapathon sont … :

Prix spécial du jury

Prix spécial du jury

Prix spécial du Jury pour l’équipe qui s’est occupé de la base Ameli : Cédric, Franck et Martin,

Prix du public pour l’équipe sur les délibérations du conseil municipal : Perrine, Quentin et Noé.

 

 

Prix du public

Prix du public

Publicités

[Equipe 7] Les médecins certifiés

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°7 – mission : exploiter la liste des médecins certifiés

Membres de l’équipe : Raphael, Frédéric et David.

Se faire opérer par un ophtalmo non certifié ? Toujours possible en 2013 ! Bon, sans dramatiser, il est toujours nécessaire de vérifier que son médecin  possède le sésame officiel certifiant sa compétence.

L’objectif de cette équipe: exploiter la liste des médecins certifiés disponible sur le site de la Haute Autorité de Santé, et éventuellement mettre en évidence les établissements qui ont le plus de médecins certifiés.

Le problème:  la liste des médecins fournie par l’HAS ne peut pas dépasser 1000 noms pour chaque requête… sur un total de 7000 médecins.

Où en sont-ils ?

Nos scrapers ont contourné cette difficulté en lançant des requêtes sur des unités territoriales dont le nombre de praticiens est inférieur à 1000. Ils ont ainsi pu agréger les données par nom, spécialité, établissements et dates de certification.  Par exemple, en Ile de France, le nombre de médecins certifiés est supérieur à 1400, d’où l’idée de lancer les requêtes au niveau des établissements.

Quelles pistes lancent-ils ? Ils proposent de descendre au niveau des établissements pour trouver le taux de certification par spécialité et par établissement. Et de comparer le niveau de certification en fonction des spécialités. Le risque étant de donner un avantage aux grands établissements…Ils proposent également de monter un service pour vérifier que le médecin est bien certifié. Le risque, ici, semble plutôt être juridique..

[Equipe 6] Les annonces d’emploi et de stage dans l’informatique

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°6 – mission : évaluer la part des stages et des CDI offerts selon le compétence demandée (Python, iOS, …) 

Membres de l’équipe : Constance, Gaëtan et François.

SafariScreenSnapz168Les job boards sont une véritable mine d’or pour évaluer la demande sur des compétences particulières. Nos scrappers se sont intéressés au site Remix Jobs qui recense principalement des offres d’emploi (ou de stage !) dans le domaine de l’informatique.

Leur objectif : récupérer les données pour être en mesure de les analyser et de les croiser. Un exemple de question : combien de stages proposés pour un CDI pour la compétence Python ? Et pour IOS ?

Où en sont-ils ?

L’heure fatidique d’évaluation des résultats approche 😉

[Equipe 5] Les déclarations publiques d’intérêts de l’agence du médicament

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°5 – mission : récupérer les déclarations publiques d’intérêts des médecins de l’agence du médicament  

Membres de l’équipe : Franck, Alexandre et Guillaume.

SafariScreenSnapz167Le site de l’Agence nationale de sécurité du médicament et des produits de santé (ANSM) contient une base de données très intéressante : Fidnet, la base des déclarations publiques d’intérêts des médecins et experts engagés dans les actions de l’ANSM.

C’est quoi le problème ?

La « base » n’est en fait qu’une série de pages web qui recense pour chaque médecin concerné l’ensemble de ses déclarations publiques d’intérêt. On y retrouve notamment les relations avec les laboratoires pharmaceutiques, ainsi que le type de relation (sans rémunération, rémunération personnelle, etc.).

L’idée de nos scrappers : récupérer les données personne par personne pour pouvoir faire des statistiques et des requêtes à partir des données brutes.

Où en sont-ils ?

Ils ont repéré plusieurs autres sites qui proposent des déclarations publiques d’intérêt au-delà de celles déjà publiées sur le site de l’ANSM. Il y a donc l’opportunité aussi de faire du croisement de données sur le sujet.

[Equipe 4] La consommation électrique en France

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°4 – mission :  la consommation électrique en France

Membres de l’équipe : Paul, Arnaud, Baptiste

SafariScreenSnapz166Le site de RTE est une vraie mine d’or pour trouver de l’information sur la production et la consommation d’électricité en France. L’équipe 4 a notamment repéré une très intéressante visualisation dynamique des données en temps réel. Ils souhaitent pouvoir récupérer les données brutes pour en faire des analyses statistiques dans l’outil R.

C’est quoi le problème ?

Problème intéressant pour cette équipe, et assez unique : en naviguant sur le site, on s’aperçoit que les données brutes sont **déjà** disponibles sur le site de RTE… On apprend souvent, quand on prépare le bac, qu’il faut attentivement lire et relire le sujet avant de se lancer. Visiblement c’est un conseil tout aussi valable pour nos apprentis scrappers 😉

Où en sont-ils ?

Nous sommes en train de leur passer la nouvelle …

[Equipe 3] La forteresse Ameli

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°3 – mission :  la forteresse Ameli

Membres de l’équipe : Cédric, Martin et Franck

SafariScreenSnapz165Ah, la base Ameli ! Combien de batailles avons-nous mené en ton nom ? Plus sérieusement, cette 3ème équipe s’est donné pour mission de récupérer une partie des données publiées sur le site Ameli-Direct, comme avait pu le faire en leurs temps le projet Fourmi Santé, par exemple… Le sujet a bien sûr intéressé l’initiative Transparence Santé qui est venue se présenter lors du scrapathon.

C’est quoi le problème ?

Visiblement, nos scrappers ne sont pas les premiers à s’atteler à la base Ameli : les protections anti-scrapping sont multiples et souvent invisibles pour les internautes lambda que nous sommes. Ainsi le site génère un « token » valable uniquement pour quelques minutes, donc il faut régulièrement se reconnecter pour faire tourner son script.

La stratégie d’approche retenue est de partir sur un périmètre relativement restreint, avec une question précise : quels sont les dépassements d’honoraires pratiqués pour une opération de la cataracte dans 5 grandes villes de France ?

Où en sont-ils ?

Au sandwich. Signe que visiblement ils ne sont pas trop inquiets des protections mises en place autour de la forteresse Ameli, nos scrappers sont partis prendre des forces loin de leur clavier…  Affaire à suivre.

[Equipe 2] Les délibérations du conseil municipal

Le scrapathon passe à la vitesse supérieure : les équipes ont été constituées et commencent à travailler sur leurs sujets concrets. Nous vous proposons une série de billets pour présenter chacune des équipes en lice pour ce 1er scrapathon…

Equipe n°2 – mission :  publier les délibérations du conseil municipal

Membres de l’équipe : Perrine, Quentin, Noé

 Au #scrapathon #Paris une équipe relève le défi de scraper les delibs en pdf du Conseil de @paris. Bonne chance. Cc @lescrapathon

— J-Philippe Clément (@AgentNum) 12 juin 2013

SafariScreenSnapz164Vous connaissez sûrement NosDéputés, l’observatoire de l’activité parlementaire mis en place par Regards Citoyens. La mission de nos trois  scrapers en herbe consiste à mettre en place une service similaire afin d’évaluer l’action des 163 conseillers municipaux de la capitale. Le Conseil de Paris se réunit de 9 à 10 dois par ans, et la ville publie l’ensemble des décisions en projet à raison de 500 délibérations par séances…

C’est quoi le problème ?

Le problème: les fichiers libérés par la ville de Paris sont difficilement exploitables car sous format PDF…

Où en sont-ils ?

Nos scrapers ont réussi à rendre ces fichiers réutilisables par l’ordinateur en générant des fichiers au format .txt … une première étape.