• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/37

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

37 Cards in this Set

  • Front
  • Back

A quoi fait référence le big data?

- Importants volumes de données
- Grande variété de sources de données et de formats
- Analyse avancée en utilisant l’informatique distribué

Quelle est la différence entre la BI traditionnelle et le Big Data?

- limited data vs unlimited data
- indicateurs et tableau de bord pour monitorer les activités internes et mesurer les points clés vs indicateurs et tableau de bord pour prévoir et mesurer sur une plus grande échelle.

Comment est défini le Big Data selon Gartner?

Le Big Data est défini selon la règle des 3V:
- Volume: beaucoup de données sont stockées et analysées
- Variété: beaucoup de types et de sources de données sont combinées
- Velocité: croissance des données est exponentielle

Qu’est ce que la règle des 3V?

- Volume: beaucoup de données sont stockées et analysées
- Variété: beaucoup de types et de sources de données sont combinées
- Velocité: croissance des données est exponentielle

A quoi fait référence le volume dans la loi des 3V?

Elle fait référence la quantité des données produites. Depuis 2010 la quantité de données produite augmente de 50%.

A quoi fait référence la variété dans la loi des 3V?

Elle fait référence au fait que les données peuvent venir de n’importe quelle source (web, camera, pc, …) et peuvent avoir différents formats (text, video, photo, …).
Les données peuvent être structurées, non-structurées et semi-structurées.

A quoi fait référence la vélocité dans la règle des 3V?

Elle fait référence au fait que les données sont générée très rapidement. Par exemple twitter, Facebook, youtube, SMS.

Qu’est ce que HDFS?

Il s’agit:
- d’un sous projet de Apache Hadoop.
- d’un système de fichier distribué

Quelles sont les caractéristiques d’un système de fichier distribués?

- Les données sont stockées sur un réseau de machines => « distribué »
- Une seule machine n’héberge pas le fichier complet.

Quel est l’utilité de HDFS?

- Il est crée pour stocker les gros fichiers (GB, TB)
- Il utilise un pattern streaming data : « Write-once, read-many-times »
- Il peut être utilisé sur n’importe quel hardware (pas besoin d’equipement particulièrement performant)

Quelles sont les limites de HDFS?

Il n’est pas conçu pour gérer:
- les petits fichiers
- la low-latency

D’où vient la difficulté pour HDFS de gérer les petits fichiers de données?

Chaque block de fichier occupe par défaut 64MB sur le disque

Décrire l’architecture HDFS?

HDFS est composé d’un server maître (NameNode) et d’un ou plusieurs serveurs esclaves (DataNodes).

Qu’est ce que le NameNode?

Le serveur qui joue le rôle de maître. Il contient les métadonnées ainsi que la localisation des blocs de données dans le fichier.
Il joue le rôle de controlleur en communiquant directement avec les applications client. Il gère le système de fichier.

Qu’est ce que le dataNode?

Le serveur qui joue le rôle d’esclave. Il contient et restitue les blocks de données.

Quelles sont les 2 types de configurations initiales?

- Single-node Setup : un seul ordinateur, seulement pour les tests et le développement
- Cluster Setup : pour la production.

Quels sont les deux modes de fonctionnement pour la configuration en Single-node de HDFS?

- Standalone Opération: il y a seulement un process java => c’est du non-distribué
- Pseudo-Distributed Opération: il y a un process java pour chaque demain Hadoop (on simule une architecture distribuée)

Comment fonctionne le stockage de fichier sur HDFS?

Les fichiers sont divisés en blocks de 64MB.
Chaque block de donnée est stocké sur 3 DataNodes par défaut
Le mapping des données est stocké sur le NameNode.

Si on a un fichier de 200 MB comment sera-t-il stocké sur HDFS?

200 MB = 64MB + 64MB + 64MB + 8MB
Le fichier sera séparé en 3 blocks de données de 64MB et un block de 8MB. Chaque block sera stocké sur 3 DataNodes.

Quels sont les fichiers important composant le NameNode?

- FsImage: store les métadonnées et le mapping des blocks.
- EditLog: stocke tous les changement des métadonnées du système de fichier.


Décrire les étapes de démarrage du NameNode?

1- FsImage et EditLog sont lus depuis le disque dur et stockés en mémoire.
2- Les transactions stockées dans EditLog sont appliquées à la version du FsImage stocké en mémoire.
3- La version en mémoire du FsImage est écrite sur le disque.
4- EditLog est tronqué (je suppose mis à jour => les transactions appliquées sont effacées du fichier)

A quoi sert le NameNode secondaire?

Il permet d’avoir un backup des métadonnées UNIQUEMENT.
Il fonctionne sur un serveur different du NameNode.

Quels sont les paramètres de configuration du NameNode secondaire?

- fs.checkpoint.period : 1h par défaut
- fs.checkpoint.size: par defaut 64 MB

Comment configurer HDSF pour avoir une bonne fiabilité?

- Toujours mettre en place un nameNode secondaire
- Multiplex : stocker au moins deux copies des metadata (FSImage + EditLog) sur différents disques durs.
- Rack hawaïens: on peut configurer HDFS pour stocker les copies des métadonnées du NameNode sur des datantes situées dans différents racks.

Que se passe-t-il en cas de perte des métadonnées et comment éviter ce cas?

En cas de pertes des métadonnées tous les fichiers stockés sur le cluster sont perdu => perte totale des données.
Pour éviter cela il est conseillé de toujours avoir un NameNode secondaire.

Qu’est ce que le multiplex?

Le multiplex consiste a stocker au moins 2 copies des métadonnées (FsImage + EditLog) sur les disques différents. Le but est d’assurer une haute reliability (fiabilité) des données.

Quelle est la démarche pour restaurer un NameNode depuis un chekpoint?

1- Créer le répertoire spécifié dans dfs.name.dir
2- Spécifié la location du checkpoint dans fs.checkpoint.dir
3- Démarrer le NameNode avec la commande:

Que se passe-t-il si un dataNode tombe?

Les blocks perdus sont automatiquement répliqués sur d’autres DataNodes.

Comment est détecté la panne d’un DataNode?

- perte de heartbeat (une pulsation est envoyée toutes les 3 secondes)

Qu’est que MapReduce?

Un framework pour écrire des applications qui gèrent du BigData sur un cluster Hadoop.
Il divise les données en plusieurs parties pour les traiter en parallèle (sur plusieurs machines)
La phase Map et la phase Reduce sont gérées par les Task Trackers qui fonctionnent en parallele.

Qu’est ce qu’un Task Tracker?

Un DataNode HDFS.

Quels sont les langages supportés pour coder un MapReduce?

- Java
- N’importe quel langage de stripping (avec hadoop Streaming)
- C++ (en utilisant Hadoop Pipes)

Comment lancer un job MapReduce?

1- On compile la classe java, en incluant hadoop.jar
2- On envoie les fichiers de données au système de stockage HDFS
3- On lance le job hadoop

Quel résultat obtient-on après avoir lancé un job MapReduce?

L’output sera stocké dans un dossier.
Dans ce dossier on aura les fichiers suivant:
- part-0000: le résultat
- _SUCCESS: indique si le job s’est terminé avec succès
On peut télécharger le résultat avec la commande fs -copyToLocal

Comment lancer un job MapReduce en python?

On doit d’abord créer les script zapper.py et réduire.py puis les rendre exécutables. Enfin on lance le job sur le cluster.

Qu’est ce que PIG?

- Un langage haut niveau pour manipuler les larges sets de données.
- Un compilateur qui créer des séquences de programmes MapReduce.
- Utilise un langage appelé PigLatin
- Peut être utilisé comme un ETL

Quel est l’interet de PIG?

- Programmation facilité (plus de java)
- Optimisation automatique (PIG se charge de la performance des requêtes)
- Extensibilité (possibilité de créer des fonctions)