Spark inspiré de programmation Fonctionnelle
Programmation fonctionnelle revient en force grace aux systèmes
distribués
RDD = "Resilient Distributed Dataset"
Spark plus rapide que Hadoop sur les plus petits sets de données
car il n'enregistre pas systématiquement sur le disque, il peut
garder le set en mémoire. Cela n'est plus vrai sur des sets de données qui ne passent pas en mémoire.
Facteurs qui peuvent limiter les performances de Spark :
Objectifs :
Critères de qualité :
Contraintes :
Objectifs :
Critères de qualité :
Contraintes :
Objectifs :
Critères de qualité :
Contraintes :
Gestionnaire de cluster, comme kubernetes
Abstraction mémoire, cpu, données physiques
Développer sur Mesos fournis :
Mesos est une interface entre hardwawre et software
Abstraction du cluster pour le faire passer pour une seule machine
Yet another resource negotiator
Yarn est un composant de Apache Hadoop.
Gère les ressources du système
Planifie les tâches en allouant les ressources du système
Avant YARN, seul MapReduce était utilisable avec Hadoop
Se place au dessus de Hadoop File System
Interface pour lancer et monitorer les tâches
Node manager sur chaque noeud. Font un raport au ressource
Manager (centralisation). Container déployés sur différents
noeuds
Répartiteur de tâches pour cluster/supercalculateur
Fonctions :
Fonctionnement :
Orchestrateur : Gestion de cluster
Il y aun système de contrôle central qui communique avec les noeuds. Les noeuds sont le support. Les pods sont les instances.
Un déploiement crée et gère les replicas et répartit les pods.
Les déploiement peuvent ensuite être représentés par un service qui est un point de sortie.
bc781d867a09a70ce942cf71afdcb4d95e3f1f1950ffe68bfd188debf93e0800