APACHE SPARK

  • Type de la Formation
    Formation Présentielle BIG DATA
  • Durée
    21 Heures

APACHE SPARK

Spark est un framework open source pour le traitement et l'analyse de données massives. Il est rapide, flexible et facile à utiliser, ce qui en fait un choix populaire pour les entreprises et les organisations de toutes tailles. Dans ce cours, nous allons apprendre les bases de Spark, y compris ses principaux composants, son architecture et son fonctionnement. Nous explorerons également les différents cas d'utilisation de Spark, ainsi que ses API et ses optimisations.

AVANTAGES INSTITUT SUPÉRIEUR DU DIGITAL

  • Qualité de la Formation Assurée.

Objectifs pédagogiques

  • Décrire les principaux composants de Spark.
  • Expliquer l'architecture de Spark.
  • Exécuter des applications Spark.
  • Utiliser les différentes API de Spark.
  • Optimiser les performances des applications Spark.

Durée

  • 21 Heures

Cout/HT

  • 1200€

Public Concerné

  • Tout développeur ou consultant IT souhaitant développer des compétences en analyse de données et BIG DATA
  • Architect et Tech-lead
  • Ingénieurs d’étude, de recherche et développement
  • Statisticiens et Mathématiciens
  • Data scientist

Prérequis

  • Avoir des Connaissances Fondamentales en Informatique.
  • Avoir des Notions de Systèmes de Gestion de Données.
  • Avoir des Compétences en Programmation (Java ou Scala).
  • Avoir une Motivation pour les Technologies Big Data.
  • Avoir des Connaissances de Base sur les Systèmes Distribués.

Moyens pédagogiques et d’encadrement

  • Cours théorique assurés par des formateurs expérimentés
  • Support de cours détaillés
  • Séries d’exercices et travaux pratiques
  • Un pc avec accès à tous les outils nécessaires au cours

Suivi et évaluation des résultats

  • Examen écrit & QCM
  • Présentation & Atelier
  • Compte rendu individuel
  • Attestation de présence
  • Enquêtes de de satisfaction

Programme

  • Définition d'Apache Spark
  • Pourquoi Apache Spark ?
  • La suite Apache Spark
  • * Spark Core
  • * Spark Streaming
  • * Spark SQL
  • * Spark Mlib
  • * Spark GraphX
  • Apache Spark – Terminologie
  • * Driver
  • * Cluster Manager
  • * Workers
  • * Executor
  • * Spark Application Context
  • * Task/Stage/Job
  • * SparkContext/SparkSession
  • Architecture
  • * Driver
  • * Executor
  • Spark en Action
  • * Anatomie d’une application Spark
  • * Déroulement d’un Job Spark
  • * Cluster mode Vs Client mode
  • Resilient Distributed Dataset
  • * RDD – Types d’opérations
  • * RDD – Persistance
  • API SPark
  • * Broadcast
  • * Accumulator
  • * Collect
  • * Map/mapToPair
  • * flatMap/flatMapTopair
  • * Reduce/ReduceByKey
  • * Les filtres
  • * Les joins
  • Données structurées sur Spark
  • * Dataset
  • * DataFrame
  • * Spark SQL
  • * Comparaison
  • * Quand utiliser Quoi ?
  • Optimisation d’un job Spark
  • * Mémoire : Tungsten
  • * Calcul : Catalyst

Modalité d’accès

Notre organisme de formation veille que toute personne en situation de handicap puisse accéder à nos formations dans la mesure des moyens d’adaptation organisationnels et techniques pouvant être mis en œuvre pour l’accompagner.

Programme de la Formation