Apache spark : programmation de solutions big data avec scala

Formation

A distance

Prix sur demande

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Description

  • Typologie

    Formation

  • Méthodologie

    A distance

À propos de cette formation :Les ensembles de données volumineux représentent de nouvelles opportunités mais également des défis d'un nouveau genre pour les entreprises de toutes tailles. Cette formation présente les bonnes pratiques en matière d'utilisation de Spark et vous enseigne les principes du développement d'applications avec Spark et les compétences de programmation dont vous avez besoin pour développer des solutions pour la plateforme Apache Spark. Vous apprendrez également à tester et à déployer des solutions Big Data sur des clusters de serveurs standards.

À propos de cette formation

À qui s'adresse cette formation ?Aux développeurs, aux architectes système et aux responsables techniques qui veulent déployer des solutions Spark dans leur entreprise.

Questions / Réponses

Ajoutez votre question

Nos conseillers et autres utilisateurs pourront vous répondre

À qui souhaitez-vous addresser votre question?

Saisissez vos coordonnées pour recevoir une réponse

Nous ne publierons que votre nom et votre question

Les Avis

Les exploits du centre

2016

Toutes les formations sont actualisées

L'évaluation moyenne est supérieure à 3,7

Plus de 50 opinions au cours des 12 derniers mois

Ce centre est avec Emagister depuis 16 ans.

Les matières

  • Apache
  • Api

Le programme

Présentation de Spark

  • Définition du Big Data et des calculs
  • À quoi sert Spark
  • Quels sont les avantages de Spark

Exécution des programmes en parallèle

Applications évolutives

  • Identifier les limites de performances des CPU modernes
  • Développer les modèles de traitement en parallèle traditionnels
Créer des algorithmes parallèles
  • Utiliser la programmation fonctionnelle pour l'exécution des programmes en parallèles
  • Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles

Définir l'architecture de Spark

Structures de données parallèles

  • Répartir les données dans le cluster avec les RDD (Resilient Distributed Datasets) et les DataFrames
  • Répartir l'exécution des tâches entre plusieurs nœuds
  • Lancer les applications avec le modèle d'exécution de Spark
Structure des clusters Spark
  • Créer des clusters résilients et résistants aux pannes
  • Mettre en place un système de stockage distribué évolutif
Gestion du cluster
  • Surveillance et administration des applications Spark
  • Afficher les plans d'exécution et les résultats

Développement d'applications Spark

Choisir l'environnement de développement

  • Réaliser une analyse exploratoire avec le shell Spark
  • Créer des applications Spark autonomes
Utiliser les API Spark
  • Programmation avec Scala et d'autres langages compatibles
  • Créer des applications avec les API de base
  • Enrichir les applications avec les bibliothèques intégrées

Manipulation des données structurées avec Spark SQL

Interroger des données structurées

  • Traiter les requêtes avec les DataFrames et le code SQL embarqué
  • Développer SQL avec les fonctions définies par l'utilisateur (UDF)
  • Utiliser les ensembles de données aux formats JSON et Parquet
Intégration à des systèmes externes
  • Connexion aux bases de données avec JDBC
  • Lancer des requêtes Hive sur des applications externes

Traiter les flux de données dans Spark

Qu'appelle-t-on flux de données ?

  • Utiliser des fenêtres glissantes
  • Déterminer l'état d'un flux de données continu
  • Traiter des flux de données simultanés
  • Améliorer les performances et la fiabilité
Traiter les flux des sources de données
  • Traiter les flux des sources intégrées (fichiers journaux, sockets Twitter, Kinesis, Kafka)
  • Développer des récepteurs personnalisés
  • Traiter les données avec l'API Streaming et Spark SQL

Spark et l'apprentissage automatique

Classer les observations

  • Prévoir les résultats avec l'apprentissage supervisé
  • Créer un élément de classification pour l'arbre de décision
Identifier les schémas récurrents
  • Regrouper les données avec l'apprentissage non supervisé
  • Créer un cluster avec la méthode k-means

Création d'applications métier

Développer des applications métier avec Spark

  • Mise à disposition de Spark via un service Web RESTful
  • Générer des tableaux de bord avec Spark
Utiliser Spark sous forme de service
  • Service cloud vs. sur site
  • Choisir un fournisseur de services (AWS, Azure, Databricks, etc.)

Faire évoluer Spark

  • Développer Spark pour les clusters de grande taille
  • Améliorer la sécurité des clusters multifournisseurs
  • Suivi du développement continu de produits Spark sur le marché
  • Projet Tungsten : repousser les performances à la limite des capacités des équipements modernes
  • Utiliser les projets développés avec Spark
  • Revoir l'architecture de Spark pour les plateformes mobiles

Informations complémentaires

Travaux Pratiques : Imbriquer des requêtes SQL dans des applications Spark Analyser des flux de données en temps réel Classification et mise en cluster des données avec l'apprentissage automatique Créer un service Web RESTful avec Spark

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Apache spark : programmation de solutions big data avec scala

Prix sur demande