APACHE SPARK

  • Type de la Formation
    Formation Présentielle BIG DATA
  • Durée
    21 Heures

APACHE SPARK

Spark est un framework open source pour le traitement et l'analyse de données massives. Il est rapide, flexible et facile à utiliser, ce qui en fait un choix populaire pour les entreprises et les organisations de toutes tailles. Dans ce cours, nous allons apprendre les bases de Spark, y compris ses principaux composants, son architecture et son fonctionnement. Nous explorerons également les différents cas d'utilisation de Spark, ainsi que ses API et ses optimisations.

AVANTAGES INSTITUT SUPÉRIEUR DU DIGITAL

  • Qualité de la Formation Assurée.

Objectifs pédagogiques

  • Décrire les principaux composants de Spark.
  • Expliquer l'architecture de Spark.
  • Exécuter des applications Spark.
  • Utiliser les différentes API de Spark.
  • Optimiser les performances des applications Spark.

Durée

  • 21 Heures

Cout/HT

  • 1200€

Public Concerné

  • Tout développeur ou consultant IT souhaitant développer des compétences en analyse de données et BIG DATA
  • Architect et Tech-lead
  • Ingénieurs d’étude, de recherche et développement
  • Statisticiens et Mathématiciens
  • Data scientist

Prérequis

  • Avoir des Connaissances Fondamentales en Informatique.
  • Avoir des Notions de Systèmes de Gestion de Données.
  • Avoir des Compétences en Programmation (Java ou Scala).
  • Avoir une Motivation pour les Technologies Big Data.
  • Avoir des Connaissances de Base sur les Systèmes Distribués.

Moyens pédagogiques et d’encadrement

  • Cours théorique assurés par des formateurs expérimentés
  • Support de cours détaillés
  • Séries d’exercices et travaux pratiques
  • Un pc avec accès à tous les outils nécessaires au cours

Suivi et évaluation des résultats

  • Examen écrit & QCM
  • Présentation & Atelier
  • Compte rendu individuel
  • Attestation de présence
  • Enquêtes de de satisfaction

Programme

  • Définition d'Apache Spark
  • Pourquoi Apache Spark ?
  • La suite Apache Spark
  • * Spark Core
  • * Spark Streaming
  • * Spark SQL
  • * Spark Mlib
  • * Spark GraphX
  • Apache Spark – Terminologie
  • * Driver
  • * Cluster Manager
  • * Workers
  • * Executor
  • * Spark Application Context
  • * Task/Stage/Job
  • * SparkContext/SparkSession
  • Architecture
  • * Driver
  • * Executor
  • Spark en Action
  • * Anatomie d’une application Spark
  • * Déroulement d’un Job Spark
  • * Cluster mode Vs Client mode
  • Resilient Distributed Dataset
  • * RDD – Types d’opérations
  • * RDD – Persistance
  • API SPark
  • * Broadcast
  • * Accumulator
  • * Collect
  • * Map/mapToPair
  • * flatMap/flatMapTopair
  • * Reduce/ReduceByKey
  • * Les filtres
  • * Les joins
  • Données structurées sur Spark
  • * Dataset
  • * DataFrame
  • * Spark SQL
  • * Comparaison
  • * Quand utiliser Quoi ?
  • Optimisation d’un job Spark
  • * Mémoire : Tungsten
  • * Calcul : Catalyst

Modalité d’accès

Notre organisme de formation veille que toute personne en situation de handicap puisse accéder à nos formations dans la mesure des moyens d’adaptation organisationnels et techniques pouvant être mis en œuvre pour l’accompagner.

Pour les personnes ayant un handicap, merci de nous contacter afin que l’on puisse s’organiser.

Téléphone : +33 1 85 78 59 63

Courriel : administration@isd-formation.com

Programme de la Formation