Set the Language

We weren't able to detect the audio language on your flashcards. Please select the correct language below.

Front

Back

Related Flashcards

Flashcards
»
Big Data

Big Data

by myk972, Mar. 2015

Favorite

Add to folder

Flag

Related Essays

The Importance Of Big Data Management
Presence of big data is a very common phenomenon now days, specially when talking about medium to large size corporation. The term Big Data is often describe...
Big Data Rewards
As our society has progressed, we have adopted the mindset of “the bigger the better”. This is reflected in the houses we own, the food we consume, and the ...
Big Data
Big data has transformed into an important element in establishing growth for any business. The term is used to describe a crucial and massive volume of data...
Big Data In Health Care
Marsha: What is meant by the term “big data” and why is it important to understand. Big date often refers to “a collection of data from traditional and ...
The Pros And Cons Of Big Data
In his article “What is Big Data” Edd Dumbill characterizes different aspects of Big Data as three V’s. Volume, Velocity and Variety. The volume itself is a ...
Pros And Cons Of Big Data
Big Data is a revolutionary term that means different things to different people. The term “Big Data”, however, mainly focuses on the handling and analysis o...
Big Data Analysis
Big Data refers to computational focus in thinking and research. It also refers to the tools and procedures and very large data sets that are used to handl...
Comparing Mayer-Schönberger And Cukier's Big Data
As presented in Viktor Mayer-Schönberger and Kenneth Cukier’s novel’s Big Data, big data is “...the ability of society to harness information in novel ways t...
Big Data Ecosystem Case Study
[29] 2 0 1 4 Demchenko, Y. ; de Laat, C. ; Membrey, P. To address all aspects of the Big Data Ecosystem, a Big Data
Health Care Data Analysis Essay
Managing such an amalgam o of data and turning it into usable information requires more advanced set of tools. [4] II. V’S OF BIG DATA • Volume: Big data im...

Shuffle
Toggle On

Toggle Off
Alphabetize
Toggle On

Toggle Off
Front First
Toggle On

Toggle Off
Both Sides
Toggle On

Toggle Off
Read
Toggle On

Toggle Off

Reading...

Front

Card Range To Study

through

Play button

Progress

1/37

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

37 Cards in this Set

Front
Back

	A quoi fait référence le big data?	- Importants volumes de données - Grande variété de sources de données et de formats - Analyse avancée en utilisant l’informatique distribué
	Quelle est la différence entre la BI traditionnelle et le Big Data?	- limited data vs unlimited data - indicateurs et tableau de bord pour monitorer les activités internes et mesurer les points clés vs indicateurs et tableau de bord pour prévoir et mesurer sur une plus grande échelle.
	Comment est défini le Big Data selon Gartner?	Le Big Data est défini selon la règle des 3V: - Volume: beaucoup de données sont stockées et analysées - Variété: beaucoup de types et de sources de données sont combinées - Velocité: croissance des données est exponentielle
	Qu’est ce que la règle des 3V?	- Volume: beaucoup de données sont stockées et analysées - Variété: beaucoup de types et de sources de données sont combinées - Velocité: croissance des données est exponentielle
	A quoi fait référence le volume dans la loi des 3V?	Elle fait référence la quantité des données produites. Depuis 2010 la quantité de données produite augmente de 50%.
	A quoi fait référence la variété dans la loi des 3V?	Elle fait référence au fait que les données peuvent venir de n’importe quelle source (web, camera, pc, …) et peuvent avoir différents formats (text, video, photo, …). Les données peuvent être structurées, non-structurées et semi-structurées.
	A quoi fait référence la vélocité dans la règle des 3V?	Elle fait référence au fait que les données sont générée très rapidement. Par exemple twitter, Facebook, youtube, SMS.
	Qu’est ce que HDFS?	Il s’agit: - d’un sous projet de Apache Hadoop. - d’un système de fichier distribué
	Quelles sont les caractéristiques d’un système de fichier distribués?	- Les données sont stockées sur un réseau de machines => « distribué » - Une seule machine n’héberge pas le fichier complet.
	Quel est l’utilité de HDFS?	- Il est crée pour stocker les gros fichiers (GB, TB) - Il utilise un pattern streaming data : « Write-once, read-many-times » - Il peut être utilisé sur n’importe quel hardware (pas besoin d’equipement particulièrement performant)
	Quelles sont les limites de HDFS?	Il n’est pas conçu pour gérer: - les petits fichiers - la low-latency
	D’où vient la difficulté pour HDFS de gérer les petits fichiers de données?	Chaque block de fichier occupe par défaut 64MB sur le disque
	Décrire l’architecture HDFS?	HDFS est composé d’un server maître (NameNode) et d’un ou plusieurs serveurs esclaves (DataNodes).
	Qu’est ce que le NameNode?	Le serveur qui joue le rôle de maître. Il contient les métadonnées ainsi que la localisation des blocs de données dans le fichier. Il joue le rôle de controlleur en communiquant directement avec les applications client. Il gère le système de fichier.
	Qu’est ce que le dataNode?	Le serveur qui joue le rôle d’esclave. Il contient et restitue les blocks de données.
	Quelles sont les 2 types de configurations initiales?	- Single-node Setup : un seul ordinateur, seulement pour les tests et le développement - Cluster Setup : pour la production.
	Quels sont les deux modes de fonctionnement pour la configuration en Single-node de HDFS?	- Standalone Opération: il y a seulement un process java => c’est du non-distribué - Pseudo-Distributed Opération: il y a un process java pour chaque demain Hadoop (on simule une architecture distribuée)
	Comment fonctionne le stockage de fichier sur HDFS?	Les fichiers sont divisés en blocks de 64MB. Chaque block de donnée est stocké sur 3 DataNodes par défaut Le mapping des données est stocké sur le NameNode.
	Si on a un fichier de 200 MB comment sera-t-il stocké sur HDFS?	200 MB = 64MB + 64MB + 64MB + 8MB Le fichier sera séparé en 3 blocks de données de 64MB et un block de 8MB. Chaque block sera stocké sur 3 DataNodes.
	Quels sont les fichiers important composant le NameNode?	- FsImage: store les métadonnées et le mapping des blocks. - EditLog: stocke tous les changement des métadonnées du système de fichier.
	Décrire les étapes de démarrage du NameNode?	1- FsImage et EditLog sont lus depuis le disque dur et stockés en mémoire. 2- Les transactions stockées dans EditLog sont appliquées à la version du FsImage stocké en mémoire. 3- La version en mémoire du FsImage est écrite sur le disque. 4- EditLog est tronqué (je suppose mis à jour => les transactions appliquées sont effacées du fichier)
	A quoi sert le NameNode secondaire?	Il permet d’avoir un backup des métadonnées UNIQUEMENT. Il fonctionne sur un serveur different du NameNode.
	Quels sont les paramètres de configuration du NameNode secondaire?	- fs.checkpoint.period : 1h par défaut - fs.checkpoint.size: par defaut 64 MB
	Comment configurer HDSF pour avoir une bonne fiabilité?	- Toujours mettre en place un nameNode secondaire - Multiplex : stocker au moins deux copies des metadata (FSImage + EditLog) sur différents disques durs. - Rack hawaïens: on peut configurer HDFS pour stocker les copies des métadonnées du NameNode sur des datantes situées dans différents racks.
	Que se passe-t-il en cas de perte des métadonnées et comment éviter ce cas?	En cas de pertes des métadonnées tous les fichiers stockés sur le cluster sont perdu => perte totale des données. Pour éviter cela il est conseillé de toujours avoir un NameNode secondaire.
	Qu’est ce que le multiplex?	Le multiplex consiste a stocker au moins 2 copies des métadonnées (FsImage + EditLog) sur les disques différents. Le but est d’assurer une haute reliability (fiabilité) des données.
	Quelle est la démarche pour restaurer un NameNode depuis un chekpoint?	1- Créer le répertoire spécifié dans dfs.name.dir 2- Spécifié la location du checkpoint dans fs.checkpoint.dir 3- Démarrer le NameNode avec la commande:
	Que se passe-t-il si un dataNode tombe?	Les blocks perdus sont automatiquement répliqués sur d’autres DataNodes.
	Comment est détecté la panne d’un DataNode?	- perte de heartbeat (une pulsation est envoyée toutes les 3 secondes)
	Qu’est que MapReduce?	Un framework pour écrire des applications qui gèrent du BigData sur un cluster Hadoop. Il divise les données en plusieurs parties pour les traiter en parallèle (sur plusieurs machines) La phase Map et la phase Reduce sont gérées par les Task Trackers qui fonctionnent en parallele.
	Qu’est ce qu’un Task Tracker?	Un DataNode HDFS.
	Quels sont les langages supportés pour coder un MapReduce?	- Java - N’importe quel langage de stripping (avec hadoop Streaming) - C++ (en utilisant Hadoop Pipes)
	Comment lancer un job MapReduce?	1- On compile la classe java, en incluant hadoop.jar 2- On envoie les fichiers de données au système de stockage HDFS 3- On lance le job hadoop
	Quel résultat obtient-on après avoir lancé un job MapReduce?	L’output sera stocké dans un dossier. Dans ce dossier on aura les fichiers suivant: - part-0000: le résultat - _SUCCESS: indique si le job s’est terminé avec succès On peut télécharger le résultat avec la commande fs -copyToLocal
	Comment lancer un job MapReduce en python?	On doit d’abord créer les script zapper.py et réduire.py puis les rendre exécutables. Enfin on lance le job sur le cluster.
	Qu’est ce que PIG?	- Un langage haut niveau pour manipuler les larges sets de données. - Un compilateur qui créer des séquences de programmes MapReduce. - Utilise un langage appelé PigLatin - Peut être utilisé comme un ETL
	Quel est l’interet de PIG?	- Programmation facilité (plus de java) - Optimisation automatique (PIG se charge de la performance des requêtes) - Extensibilité (possibilité de créer des fonctions)

Share This Flashcard Set