Formation Introduction à Spark Scala pour le traitement des données Mixte : présentiel / à distance

Dernière mise à jour : 06/02/2026

Pré-inscription

Veuillez décrire votre situation

Ajouter au panier

Présentation

Ce programme de vise à fournir aux participants une compréhension solide des bases de Spark Scala pour le traitement de données.

Il couvre progressivement des concepts allant des RDD et DataFrames aux opérations SQL et à l'optimisation des performances, en leur permettant de devenir autonomes dans la manipulation et l'analyse de données massives avec Spark.

Objectifs

Comprendre les fondamentaux de Spark et de Scala
Maîtriser les bases du traitement de données avec Spark
Savoir manipuler des données structurées avec Spark DataFrame

Utiliser Spark SQL pour l'interrogation de données
Comprendre l'optimisation et les performances dans Spark

Public visé

Développeurs, analyste de données, Ingénieurs Big Data

Prérequis

Cette formation « Introduction à Spark Scala pour le traitement des données » est conçue pour les débutants dans le domaine de Spark Scala, certaines connaissances de base en programmation et en bases de données sont généralement recommandées pour tirer pleinement parti du contenu du cours.

Programme

Jour 1 : Introduction à Apache Spark et Scala

Introduction à Apache Spark :

Présentation de Spark et son rôle dans le traitement de données à grande échelle.
Avantages de l'utilisation de Spark pour le traitement de données par rapport à d'autres technologies.

Introduction à Scala :

Présentation du langage de programmation Scala et de ses caractéristiques.

Les principales différences entre Scala et d'autres langages de programmation courants.

Installation et configuration de l'environnement Spark :

Installation de Spark et de Scala sur l'environnement de développement.
Configuration des variables d'environnement et des paramètres de Spark.

Les RDD (Resilient Distributed Datasets) en Spark :

Comprendre les RDD en tant que principal concept de stockage et de traitement des données dans Spark.
Création et manipulation de RDD à partir de diverses sources de données.

Les transformations et les actions de base sur les RDD :

Comprendre les transformations et les actions et leur rôle dans les opérations de traitement de données.
Utiliser les transformations (map, filter, reduceByKey, etc.) et les actions (count, collect, saveAsTextFile, etc.) pour analyser les données.

Manipulation de données avec Spark RDD :

Appliquer des opérations de traitement de données sur des RDD pour résoudre des problèmes pratiques.
Exemples pratiques d'utilisation de Spark RDD pour effectuer des tâches de traitement de données.

Jour 2 : Manipulation de données avec DataFrames en Spark

Introduction aux DataFrames en Spark :

Comprendre les DataFrames en tant que structure de données tabulaire organisée et distribuée dans Spark.
Avantages d'utilisation des DataFrames par rapport aux RDD.

Création et manipulation de DataFrames :

Charger des données dans un DataFrame à partir de différentes sources (fichiers CSV, JSON, bases de données, etc.).
Appliquer des transformations sur les DataFrames pour filtrer, sélectionner et grouper les données.

Opérations de base sur les DataFrames :

Utiliser des fonctions d'agrégation telles que sum, avg, max, min, etc.
Appliquer des opérations de jointure pour combiner des DataFrames.

Introduction aux Datasets en Spark :

Comprendre les Datasets en tant que nouvelle API de haut niveau pour manipuler des données structurées.
Comparaison des Datasets avec les RDD et les DataFrames.

Traitement de données structurées avec les Datasets :

Utiliser des Datasets pour manipuler des données structurées et bénéficier de la typage statique.

Appliquer des opérations de filtrage, de tri et de groupage sur les Datasets.

Les fonctions d'agrégation et les opérations avancées sur les DataFrames :

Utiliser des fonctions d'agrégation avancées pour effectuer des calculs complexes sur les données.
Utiliser des fonctions de fenêtrage pour effectuer des opérations sur des fenêtres de données.

Jour 3 : Utilisation de SQL et optimisation dans Spark

Introduction à Spark SQL :

Comprendre le rôle de Spark SQL dans le traitement de données.
Utiliser SQL pour interroger des données dans Spark et tirer parti des capacités de Spark SQL.

Utilisation de SQL pour interroger des données dans Spark :

Écrire des requêtes SQL pour effectuer des analyses et des transformations de données.
Comparaison des requêtes SQL avec les opérations DataFrame et RDD.

Introduction aux performances et à l'optimisation dans Spark :

Comprendre l'importance des performances dans le traitement de données à grande échelle.

Identifier les goulots d'étranglement et les problèmes de performances courants.

Gestion des partitions pour améliorer les performances :

Comprendre le concept de partitionnement des données dans Spark.
Optimiser les partitions pour améliorer l'efficacité des opérations de traitement de données.

Résolution de problèmes de traitement de données courants avec Spark Scala :

Exemples pratiques de résolution de problèmes courants liés au traitement de données avec Spark et Scala.
Réalisation de projets pratiques pour appliquer les connaissances acquises au cours de la formation.

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

Formation en présentiel

En groupe (inter-entreprises ou intra-entreprise)
En individuel (monitorat)
En journée ou en cours du soir (sur demande spécifique)

Formation en distanciel

Distanciel synchrone
Distanciel asynchrone

Moyens et supports pédagogiques

Apports des connaissances communes.
Mises en situation sur le thème de la formation et des cas concrets.
Méthodologie d'apprentissage attractive, interactive et participative.
Equilibre théorie / pratique : 60 % / 40 %.
Supports de cours fournis au format papier et/ou numérique.
Ressources documentaires en ligne et références mises à disposition par le formateur.
Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).

Modalités d'évaluation et de suivi

En amont de la formation

Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation

Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation

Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
Evaluation par le formateur des compétences acquises par les apprenants.
Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Informations sur l'admission

Nous consulter.

Modalités d'admission

Admission sans disposition particulière

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

Catégorie : Data et IA Appliquée
Sous-Catégorie : SQL & Base de données
Durée : 21h
Prix : 2 150 € HT

Prix INTRA : Nous consulter
Référence : MOD_2023762
Satisfaction :

★★★★★

★★★★★
Taux de réussite : - %
Télécharger le programme

Accessibilité à nos formations

Si vous êtes en situation de handicap, contactez-nous avant le début de votre formation pour que nous puissions vous orienter efficacement et vous accueillir dans les meilleures conditions.

Inscription possible jusqu'à 10 jours avant le démarrage de la formation

Prochaines Sessions

Cette formation n'est pas programmée pour le moment.

Contactez-nous pour planifier une session ensemble !

Dans la même catégorie

Voir toutes les formations