Formation indisponible à l'heure actuelle
Data Analyst Cloudera : Implémenter Pig, Hive, Impala avec Hadoop
Formation
À Paris ()
Description
-
Typologie
Formation
La formation professionnelle est un facteur clé du succès de l’entreprise mais aussi des individus. Elle participe au développement des compétences, à l'employabilité et accompagne ainsi les changements structurels et organisationnels nécessaires pour relever les défis individuels et collectifs. appliquer l’analyse traditionnelle des données et les compétences de « business intelligence » aux Big Data manipuler et analyser des ensembles complexes de données en utilisant SQL et des langages de script familiers
À propos de cette formation
avoir de l’expérience avec SQL et les commandes UNIX ou Linux basiques, une connaissance préalable de Java et Apache Hadoop n’est pas requise
Les Avis
Les matières
- Analyse de résultats
- Requêtes
Le programme
L’intérêt d’Hadoop
Vue globale d’Hadoop
HDFS
MapReduce
L’écosystème Hadoop
Explication de scenarios de laboratoire
Exercices hands-On : ingestion de données avec les outils Hadoop
Qu’est-ce que Pig ?
Les caractéristiques de Pig
Cas d’utilisation de Pig
Interagir avec Pig
Syntaxe latine de Pig
Charger des données
Types de données simples
Définitions des champs
Data Output
Voir le Schema
Filtrer et trier les données
Les fonctions utilisées communément
Exercices Hands-On : utiliser Pig pour des process ETL
Formats de stockage
Types de données complexes/emboités
Grouper
Fonctions built-in pour des données complexes
Itérer des données groupées
Exercices Hands-On : analyser des données de campagnes publicitaires avec Pig
Techniques pour combiner des ensembles de données
Assembler des ensembles de données avec Pig
Opérations de groupe
Séparer des ensembles de données
Exercise « Hans-On » : analyser des ensembles de données disparates avec Pig
Ajouter de la flexibilité avec les paramètres
Macros et imports
UDFs
Contributed functions
Utiliser d’autres langages pour traiter des données avec Pig
Exercice « Hans-On » : étendre Pig avec Streaming et UDFs
Résolution des problèmes avec Pig
Logging
Utiliser l’UI Web d’Hadoop
Demo optionnelle : résolution d’un "Failed Job" avec l’UI Web
Echantillonnage de données et débugage
Vue d’ensemble des performances
Comprendre le plan d’exécution
Astuces pour améliorer la performance de votre "Pig Jobs"
Qu’est-ce qu’Hive ?
Schema Hive et stockage de données
Comparer Hive aux bases de données traditionnelles
Hive vs. Pig
Cas d’utilisation d’Hive
Interagir avec Hive
Bases de données et tableaux Hive
Syntaxe HiveQL basique
Types de données,
Assembler des ensembles de données
Fonctions communes de Built-in
Exercice "hands-on" : "Running Hive Queries on the Shell, Scripts and Hue"
Formats de données Hive
Créer des bases de données et tableaux de management Hive
"Altering Databases and Tables"
Tableaux auto-managés
Simplifier les requêtes avec Views
Stocker les résultats de requêtes
Contrôler l’accès aux données
Exercice "Hands-On" : management des données avec Hive
Vue d’ensemble du traitement de texte
Fonctions String importantes
Utiliser des expressions habituelles dans Hive
« Sentiment Analysis » et « N-Grams »
Exercices « Hands-On » (optionnels) : se faire une idée de l’analyse de sentiment
Comprendre la performance de requête
Contrôler le plan d’exécution des tâches
Partitionner
« Bucketing »
Indexer les données
SerDes
Transformation de données avec des Scripts personnalisés
Fonctions définies par l’utilisateur
Paramétrer les requêtes
Exercices « Hands-On » : transformation de données avec Hive
Qu’est-ce qu’Impala ?
En quoi Impala diffère d’Hive et de Pig
Comment Impala diffère des bases de données relationnelles
Limitations et directions futures
Utiliser le Shell Impala
Syntaxe basique
Types de données
Filtrer, trier et restreindre les résultats
Assembler et grouper les données
Augmenter les performances d’Impala
Exercices « Hands-On » : analyse interactive avec Impala
Comparer MapReduce, Pig, Hive, Impala et les bases de données relationnelles
Lequel choisir ?
Data Analyst Cloudera : Implémenter Pig, Hive, Impala avec Hadoop
