Description
Cette formation permettra aux participants d’acquérir des compétences pratiques dans la mise en œuvre d’un système Hadoop. Les participants seront à même d’interroger les données contenues sur cette plateforme.Pré-requis
- Des connaissances en SQL sont un plus.
Publics
- Chefs de projets
- Développeurs
- Administrateurs de bases de données
Objectifs
- Acquérir des compétences pratiques dans la mise en œuvre d’un système Hadoop
- Être capable d’interroger les données contenues sur cette plateforme
Plan de formation
Introduction
- Les origines du Big Data
- La donnée en tant que matière première.
Les composants Hadoop
- Écosystème Hadoop
- Architecture HDFS
- Architecture et principes de fonctionnement de MapReduce.
- HBase
- Hive
- Pig
- Sqoop
- Présentation des distributions principales du marché
- Hortonworks
- MapR
- Cloudera
Mise en place d’une infrastructure Hadoop
- Organisation d’un cluster
- Besoin matériel, réseau
- Choisir le matériel adapté
- Installation Hadoop et configuration initiale
- Pré-requis
- Cloudera Manager
- Surveillez l’état de votre cluster Exercice : Mise en place d’un écosystème Hadoop
Développement Hadoop
- Hive
- Création de bases de données, tables, vues
- Requêtes grâce au HiveSQL
- Manipulations de fonctions définies par l’utilisateur (UDF)
- Gestion des droits utilisateurs
- Pig
- Pig Latin pour interroger vos données
- Communication entre Pig et Hive
- Oozie
- Comment planifier ses travaux
- Utilisation de workflows, coordinateurs, bundles Exercices : Manipulations des données via Hive, Pig . Planifications de nos travaux via Oozie.
- Comment planifier ses travaux
Optimiser l’exécution de vos travaux
- Partinitionner vos données à l’aide d’Hiver
- Archier vos données
- Gestion de la mémoire (JVM) Exercice : Mise en œuvre de ces optimisations