-
Type de la Formation
Formation Présentielle BIG DATA
-
Durée
21 Heures
APACHE SPARK
Spark est un framework open source pour le traitement et l'analyse de données massives. Il est rapide, flexible et facile à utiliser, ce qui en fait un choix populaire pour les entreprises et les organisations de toutes tailles. Dans ce cours, nous allons apprendre les bases de Spark, y compris ses principaux composants, son architecture et son fonctionnement. Nous explorerons également les différents cas d'utilisation de Spark, ainsi que ses API et ses optimisations.
Objectifs pédagogiques
- Décrire les principaux composants de Spark.
- Expliquer l'architecture de Spark.
- Exécuter des applications Spark.
- Utiliser les différentes API de Spark.
- Optimiser les performances des applications Spark.
Durée
- 21 Heures
Cout/HT
- 1200€
Public Concerné
- Tout développeur ou consultant IT souhaitant développer des compétences en analyse de données et BIG DATA
- Architect et Tech-lead
- Ingénieurs d’étude, de recherche et développement
- Statisticiens et Mathématiciens
- Data scientist
Prérequis
- Avoir des Connaissances Fondamentales en Informatique.
- Avoir des Notions de Systèmes de Gestion de Données.
- Avoir des Compétences en Programmation (Java ou Scala).
- Avoir une Motivation pour les Technologies Big Data.
- Avoir des Connaissances de Base sur les Systèmes Distribués.
Moyens pédagogiques et d’encadrement
- Cours théorique assurés par des formateurs expérimentés
- Support de cours détaillés
- Séries d’exercices et travaux pratiques
- Un pc avec accès à tous les outils nécessaires au cours
Suivi et évaluation des résultats
- Examen écrit & QCM
- Présentation & Atelier
- Compte rendu individuel
- Attestation de présence
- Enquêtes de de satisfaction
Programme
- Définition d'Apache Spark
- Pourquoi Apache Spark ?
- La suite Apache Spark
- * Spark Core
- * Spark Streaming
- * Spark SQL
- * Spark Mlib
- * Spark GraphX
- Apache Spark – Terminologie
- * Driver
- * Cluster Manager
- * Workers
- * Executor
- * Spark Application Context
- * Task/Stage/Job
- * SparkContext/SparkSession
- Architecture
- * Driver
- * Executor
- Spark en Action
- * Anatomie d’une application Spark
- * Déroulement d’un Job Spark
- * Cluster mode Vs Client mode
- Resilient Distributed Dataset
- * RDD – Types d’opérations
- * RDD – Persistance
- API SPark
- * Broadcast
- * Accumulator
- * Collect
- * Map/mapToPair
- * flatMap/flatMapTopair
- * Reduce/ReduceByKey
- * Les filtres
- * Les joins
- Données structurées sur Spark
- * Dataset
- * DataFrame
- * Spark SQL
- * Comparaison
- * Quand utiliser Quoi ?
- Optimisation d’un job Spark
- * Mémoire : Tungsten
- * Calcul : Catalyst
Modalité d’accès
Pour les personnes ayant un handicap, merci de nous contacter afin que l’on puisse s’organiser.
Téléphone : +33 1 85 78 59 63
Courriel : administration@isd-formation.com