Big data avec pig, hive, et impala

Formation

A distance

Prix sur demande

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Description

  • Typologie

    Formation

  • Méthodologie

    A distance

  • Dates de début

    Dates au choix

À propos de cette formation :Cette formation vous apporte les connaissances pour exploiter Pig et Hive afin de préparer et d'analyser de grands ensembles de données dans Hadoop. La productivité est accrue en évitant un codage MapRéduce de niveau inférieur dans le sens où les programmeurs nettoient, filtrent et imposent une structure et interrogent des données pour obtenir plus d'informations de valeur. Cela permet de meilleures décision. Les requêtes à faible latence sont exécutées avec Impala et Shark.

Les sites et dates disponibles

Lieu

Date de début

A distance

Date de début

Dates au choixInscriptions ouvertes

À propos de cette formation

À qui s'adresse cette formation ?Aux techniciens et spécialistes des bases de données, aux responsables, aux analystes métier et aux professionnels BI, souhaitant utiliser les technologies Big Data dans leur entreprise.

Questions / Réponses

Ajoutez votre question

Nos conseillers et autres utilisateurs pourront vous répondre

À qui souhaitez-vous addresser votre question?

Saisissez vos coordonnées pour recevoir une réponse

Nous ne publierons que votre nom et votre question

Les Avis

Les exploits du centre

2016

Toutes les formations sont actualisées

L'évaluation moyenne est supérieure à 3,7

Plus de 50 opinions au cours des 12 derniers mois

Ce centre est avec Emagister depuis 16 ans.

Les matières

  • Requêtes
  • Tables

Le programme

L'écosystème Hadoop

  • Vue d'ensemble de Hadoop
  • Analyser les composants Hadoop
  • Définir l'architecture Hadoop

Explorer HDFS et MapReduce

Stocker les données dans HDFS

  • Réaliser un stockage fiable et sécurisé
  • Surveiller les mesures du stockage
  • Contrôler HDFS à partir de la ligne de commande
Traitement parallèle avec MapReduce
  • Détailler l'approche MapReduce
  • Transférer les algorythmes et non les données
  • Décomposer les étapes clés d'une tâche MapReduce
Automatiser le transfert des données
  • Faciliter l'entrée et la sortie des données
  • Agréger les données avec Flume
  • Configurer le fan in et le fan out des données
  • Déplacer les données relationnelles avec Sqoop

Exécuter les flux de données avec Pig

Décrire les caractéristiques d'Apache Pig

  • Exposer les différences entre Pig et MapReduce
  • Identifier les cas d'utilisation de Pig
  • Identifier les configurations clés de Pig
Structurer les données non structurées
  • Représenter les données dans le modèle de données de Pig
  • Exécuter les commandes Pig Latin au Grunt Shell
  • Exprimer les transformations dans la syntaxe Pig Latin
  • Appeler les fonctions de chargement et de stockage

Réaliser ETL avec Pig

Transformer les données avec les opérateurs relationnels

  • Créer des nouvelles relations avec des jointures
  • Réduire la taille des données par échantillonnage
  • Exploiter Pig et les fonctions définies par l'utilisateur
Filtrer les données avec Pig
  • Consolider les ensembles de données avec les unions
  • Partitionner les ensembles de données avec les splits
  • Ajouter des paramètres dans des scripts Pig

Manipuler les données avec Hive

Exploiter les avantages métier de Hive

  • Factoriser Hive en composants
  • Imposer la structure sur les données avec Hive
Organiser les données dans Hive
  • Créer des bases de données et des tables Hive
  • Exposer les différences entre les types de données dans Hive
  • Charger et stocker les données efficacement avec SerDes
Concevoir la disposition des données pour la performance
  • Remplir les tables à partir de requêtes
  • Partitionner les tables de Hive pour des requêtes optimales
  • Composer des requêtes HiveQL

Extraire des données avec HiveQL

Réaliser des jointures sur des données non structurées

  • Distinguer les jointures disponibles dans Hive
  • Optimiser la structure des jointures pour les performances
Repousser les limites de HiveQL
  • Trier, répartir et regrouper des données
  • Réduire la complexité des requêtes avec les vues
  • Améliorer la performance des requêtes avec les index
Déployer Hive en production
  • Concevoir les schémas de Hive
  • Établir la compression des données
  • Déboguer les scripts de Hive
Rationaliser la gestion du stockage avec HCatalog
  • Unifier la vue des données avec HCatalog
  • Exploiter HCatalog pour accéder au metastore Hive
  • Communiquer via les interfaces HCatalog
  • Remplir une table Hive à partir de Pig

Interagir avec les données Hadoop en temps réel

Traitement parallèle avec Impala

  • Décomposer les composants fondamentaux d'Impala
  • Soumettre des requêtes à Impala
  • Accéder aux données Hive à partir d'Impala
Lancer le framework Spark
  • Réduire le temps d'accès aux données avec Shark
  • Interroger les données Hive avec Shark

Informations complémentaires

Travaux Pratiques :Charger les données dans HDFS avec Flume et Sqoop Transformer les ensembles de données avec Pig et Hive Simplifier les requêtes en créant les vues Hive Découper et joindre les ensembles de données dans Pig et Hive Exploiter HCatalog pour exposer le metastore de Hive à Pig Activer Impala et Shark pour des requêtes plus rapides

Appeler le centre

Avez-vous besoin d'un coach de formation?

Il vous aidera à comparer différents cours et à trouver la solution la plus abordable.

Big data avec pig, hive, et impala

Prix sur demande