Apache spark : programmation de solutions big data avec scala
Formation
A distance
Avez-vous besoin d'un coach de formation?
Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.
Description
-
Typologie
Formation
-
Méthodologie
A distance
À propos de cette formation :Les ensembles de données volumineux représentent de nouvelles opportunités mais également des défis d'un nouveau genre pour les entreprises de toutes tailles. Cette formation présente les bonnes pratiques en matière d'utilisation de Spark et vous enseigne les principes du développement d'applications avec Spark et les compétences de programmation dont vous avez besoin pour développer des solutions pour la plateforme Apache Spark. Vous apprendrez également à tester et à déployer des solutions Big Data sur des clusters de serveurs standards.
À propos de cette formation
À qui s'adresse cette formation ?Aux développeurs, aux architectes système et aux responsables techniques qui veulent déployer des solutions Spark dans leur entreprise.
Les Avis
Les exploits du centre
Toutes les formations sont actualisées
L'évaluation moyenne est supérieure à 3,7
Plus de 50 opinions au cours des 12 derniers mois
Ce centre est avec Emagister depuis 16 ans.
Les matières
- Apache
- Api
Le programme
Présentation de Spark
- Définition du Big Data et des calculs
- À quoi sert Spark
- Quels sont les avantages de Spark
Exécution des programmes en parallèle
Applications évolutives
- Identifier les limites de performances des CPU modernes
- Développer les modèles de traitement en parallèle traditionnels
- Utiliser la programmation fonctionnelle pour l'exécution des programmes en parallèles
- Retranscrire des difficultés rencontrées sur le terrain dans des algorithmes parallèles
Définir l'architecture de Spark
Structures de données parallèles
- Répartir les données dans le cluster avec les RDD (Resilient Distributed Datasets) et les DataFrames
- Répartir l'exécution des tâches entre plusieurs nœuds
- Lancer les applications avec le modèle d'exécution de Spark
- Créer des clusters résilients et résistants aux pannes
- Mettre en place un système de stockage distribué évolutif
- Surveillance et administration des applications Spark
- Afficher les plans d'exécution et les résultats
Développement d'applications Spark
Choisir l'environnement de développement
- Réaliser une analyse exploratoire avec le shell Spark
- Créer des applications Spark autonomes
- Programmation avec Scala et d'autres langages compatibles
- Créer des applications avec les API de base
- Enrichir les applications avec les bibliothèques intégrées
Manipulation des données structurées avec Spark SQL
Interroger des données structurées
- Traiter les requêtes avec les DataFrames et le code SQL embarqué
- Développer SQL avec les fonctions définies par l'utilisateur (UDF)
- Utiliser les ensembles de données aux formats JSON et Parquet
- Connexion aux bases de données avec JDBC
- Lancer des requêtes Hive sur des applications externes
Traiter les flux de données dans Spark
Qu'appelle-t-on flux de données ?
- Utiliser des fenêtres glissantes
- Déterminer l'état d'un flux de données continu
- Traiter des flux de données simultanés
- Améliorer les performances et la fiabilité
- Traiter les flux des sources intégrées (fichiers journaux, sockets Twitter, Kinesis, Kafka)
- Développer des récepteurs personnalisés
- Traiter les données avec l'API Streaming et Spark SQL
Spark et l'apprentissage automatique
Classer les observations
- Prévoir les résultats avec l'apprentissage supervisé
- Créer un élément de classification pour l'arbre de décision
- Regrouper les données avec l'apprentissage non supervisé
- Créer un cluster avec la méthode k-means
Création d'applications métier
Développer des applications métier avec Spark
- Mise à disposition de Spark via un service Web RESTful
- Générer des tableaux de bord avec Spark
- Service cloud vs. sur site
- Choisir un fournisseur de services (AWS, Azure, Databricks, etc.)
Faire évoluer Spark
- Développer Spark pour les clusters de grande taille
- Améliorer la sécurité des clusters multifournisseurs
- Suivi du développement continu de produits Spark sur le marché
- Projet Tungsten : repousser les performances à la limite des capacités des équipements modernes
- Utiliser les projets développés avec Spark
- Revoir l'architecture de Spark pour les plateformes mobiles
Informations complémentaires
Avez-vous besoin d'un coach de formation?
Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.
Apache spark : programmation de solutions big data avec scala