Formation Spark, introduction

Formation

À Paris

2 290 € HT

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Description

  • Typologie

    Formation intensive

  • Niveau

    Niveau intermédiaire

  • Lieu

    Paris

  • Heures de classe

    21h

  • Durée

    3 Jours

  • Dates de début

    Dates au choix

Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data.

Les sites et dates disponibles

Lieu

Date de début

Paris ((75) Paris)
Voir plan
6 rue Rougemont, 75009

Date de début

Dates au choixInscriptions ouvertes

À propos de cette formation

Comprendre le principe de fonctionnement de Spark
Apprendre à utiliser l’API PySpark pour interagir avec Spark en Python
Apprendre à utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
Apprendre à traiter les flux de données avec Spark Streaming
Apprendre à manipuler les données avec Spark SQL

Questions / Réponses

Ajoutez votre question

Nos conseillers et autres utilisateurs pourront vous répondre

À qui souhaitez-vous addresser votre question?

Saisissez vos coordonnées pour recevoir une réponse

Nous ne publierons que votre nom et votre question

Les Avis

Les matières

  • Formation Introduction à Spark
  • • Comprendre le principe de
  • Fonctionnement
  • De Spark
  • Apprendre à utiliser les méthodes
  • Apprendre à traiter
  • Les flux de données avec Spark Streaming
  • Apprendre à
  • Manipuler les données avec Spark SQL

Professeurs

équipe des professeurs

équipe des professeurs

Directeur

Le programme

Introduction à Hadoop
  • L’ère du Big Data
  • Architecture et composants de la plateforme Hadoop
  • HDFS
  • NameNode / DataNode / RessourceManager
  • Paradigme MapReduce et YARN

Introduction à Spark

  • Qu’est-ce que Spark ?
  • Spark vs MapReduce
  • Fonctionnement : RDD, DataFrames, Data Sets
  • Comment interagir avec Spark
  • PySpark : programmer avec Spark en Python

Manipulation des données

  • Formats basiques (fichiers textes, JSON, CSV, SequencesFiles, fichiers compressés)
  • Interagir avec des sources de données externes : connecteurs Hive, JDC, Hbase, ElasticSearch, …

Spark Streaming

  • Introduction à Spark Streaming
  • La notion de « DStream »
  • Principales sources de données
  • Utilisation de l’API
  • Manipulation des données

Spark SQL

  • Initiation à Spark SQL
  • Création de DataFrames
  • Manipulation des DataFrames (opérations basiques, agrégations & Groupby, Missing Data)
  • Chargement et stockage de données (avec Hive, JSON, etc…)

Spark ML avec MLlib

  • Modélisation Statistique & Apprentissage
  • Types de données (Vector / LabeledPoint / Model)
  • Préparation des données
  • Utilisation d’algorithme de MLlib (k-means / Régression logistique / arbre de discrimination / forêt aléatoire)
  • Exemple de création d’un modèle et de son évaluation avec Spark MLlib sur un jeu de données

GraphX et GraphFrames

  • Présentation de GraphX
  • Principe de création des graphes
  • API GraphX
  • Présentation GraphFrames
  • GraphX vs GraphFrames

Travaux pratiques


  • Alternance d’apports théoriques, d’exercices pratiques et de mise en situation sous forme de travaux pratiques permettant de tester les différentes notions abordées avec le langage Python

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Formation Spark, introduction

2 290 € HT