Extraction De Données sur Le Web
Formation
À Malakoff Cedex
Description
-
Typologie
Formation
-
Dirigé à
Pour professionnels
-
Lieu
Malakoff cedex
-
Durée
3 Jours
La formation apporte aux participants les notions théoriques et les réponses pratiques indispensables à la mise en œuvre des techniques d’acquisition automatisées de données sur le web. Le cours aborde les formats de données courant disponibles sur le web et les méthodes d’extraction de ces données structurées ou semi-structurées depuis une page web (“web scraping”) ou une interface de programmation.
Précisions importantes
Modalité Formation continue
Les sites et dates disponibles
Lieu
Date de début
Date de début
À propos de cette formation
Connaissances de base en traitement de données, programmation, notions de HTML.
Les Avis
Le programme
Les droits d’utilisation des données disponibles sur le web
- Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.
Les types de données disponibles sur le web
- Explication des formats HTML, XML, JSON, RSS.
Concepts de protocoles réseau
- Notions de client/serveur, TCP/IP, requêtes HTTP GET/POST.
Récupérer des données fournies par une interface de programmation (API)
- Définition d’une API, requêtage, exemples pratiques avec R.
Récupérer des données d’un site web
- Définition du web scraping, parcours de pages web, extraction de données via XPath/regex, exemples pratiques avec R.
Exemples d’outils pour faciliter le web scraping
- Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Yahoo Pipes!, Scrapy, PhantomJS, etc.
Problèmes avancés d’extractions de données
- Ordonnancement, proxy, authentification, erreurs HTTP.
Extraction De Données sur Le Web
