Use LEFT and RIGHT arrow keys to navigate between flashcards;
Use UP and DOWN arrow keys to flip the card;
H to show hint;
A reads text to speech;
37 Cards in this Set
- Front
- Back
A quoi fait référence le big data? |
- Importants volumes de données |
|
Quelle est la différence entre la BI traditionnelle et le Big Data? |
- limited data vs unlimited data |
|
Comment est défini le Big Data selon Gartner? |
Le Big Data est défini selon la règle des 3V: |
|
Qu’est ce que la règle des 3V? |
- Volume: beaucoup de données sont stockées et analysées |
|
A quoi fait référence le volume dans la loi des 3V? |
Elle fait référence la quantité des données produites. Depuis 2010 la quantité de données produite augmente de 50%. |
|
A quoi fait référence la variété dans la loi des 3V? |
Elle fait référence au fait que les données peuvent venir de n’importe quelle source (web, camera, pc, …) et peuvent avoir différents formats (text, video, photo, …). |
|
A quoi fait référence la vélocité dans la règle des 3V? |
Elle fait référence au fait que les données sont générée très rapidement. Par exemple twitter, Facebook, youtube, SMS. |
|
Qu’est ce que HDFS? |
Il s’agit: |
|
Quelles sont les caractéristiques d’un système de fichier distribués? |
- Les données sont stockées sur un réseau de machines => « distribué » |
|
Quel est l’utilité de HDFS? |
- Il est crée pour stocker les gros fichiers (GB, TB) |
|
Quelles sont les limites de HDFS? |
Il n’est pas conçu pour gérer: |
|
D’où vient la difficulté pour HDFS de gérer les petits fichiers de données? |
Chaque block de fichier occupe par défaut 64MB sur le disque |
|
Décrire l’architecture HDFS? |
HDFS est composé d’un server maître (NameNode) et d’un ou plusieurs serveurs esclaves (DataNodes). |
|
Qu’est ce que le NameNode? |
Le serveur qui joue le rôle de maître. Il contient les métadonnées ainsi que la localisation des blocs de données dans le fichier. |
|
Qu’est ce que le dataNode? |
Le serveur qui joue le rôle d’esclave. Il contient et restitue les blocks de données. |
|
Quelles sont les 2 types de configurations initiales? |
- Single-node Setup : un seul ordinateur, seulement pour les tests et le développement |
|
Quels sont les deux modes de fonctionnement pour la configuration en Single-node de HDFS? |
- Standalone Opération: il y a seulement un process java => c’est du non-distribué |
|
Comment fonctionne le stockage de fichier sur HDFS? |
Les fichiers sont divisés en blocks de 64MB. |
|
Si on a un fichier de 200 MB comment sera-t-il stocké sur HDFS? |
200 MB = 64MB + 64MB + 64MB + 8MB |
|
Quels sont les fichiers important composant le NameNode? |
- FsImage: store les métadonnées et le mapping des blocks. |
|
|
1- FsImage et EditLog sont lus depuis le disque dur et stockés en mémoire. |
|
A quoi sert le NameNode secondaire? |
Il permet d’avoir un backup des métadonnées UNIQUEMENT. |
|
Quels sont les paramètres de configuration du NameNode secondaire? |
- fs.checkpoint.period : 1h par défaut |
|
Comment configurer HDSF pour avoir une bonne fiabilité? |
- Toujours mettre en place un nameNode secondaire |
|
Que se passe-t-il en cas de perte des métadonnées et comment éviter ce cas? |
En cas de pertes des métadonnées tous les fichiers stockés sur le cluster sont perdu => perte totale des données. |
|
Qu’est ce que le multiplex? |
Le multiplex consiste a stocker au moins 2 copies des métadonnées (FsImage + EditLog) sur les disques différents. Le but est d’assurer une haute reliability (fiabilité) des données. |
|
Quelle est la démarche pour restaurer un NameNode depuis un chekpoint? |
1- Créer le répertoire spécifié dans dfs.name.dir |
|
Que se passe-t-il si un dataNode tombe? |
Les blocks perdus sont automatiquement répliqués sur d’autres DataNodes. |
|
Comment est détecté la panne d’un DataNode? |
- perte de heartbeat (une pulsation est envoyée toutes les 3 secondes) |
|
Qu’est que MapReduce? |
Un framework pour écrire des applications qui gèrent du BigData sur un cluster Hadoop. |
|
Qu’est ce qu’un Task Tracker? |
Un DataNode HDFS. |
|
Quels sont les langages supportés pour coder un MapReduce? |
- Java |
|
Comment lancer un job MapReduce? |
1- On compile la classe java, en incluant hadoop.jar |
|
Quel résultat obtient-on après avoir lancé un job MapReduce? |
L’output sera stocké dans un dossier. |
|
Comment lancer un job MapReduce en python? |
On doit d’abord créer les script zapper.py et réduire.py puis les rendre exécutables. Enfin on lance le job sur le cluster. |
|
Qu’est ce que PIG? |
- Un langage haut niveau pour manipuler les larges sets de données. |
|
Quel est l’interet de PIG? |
- Programmation facilité (plus de java) |