Formation Scala pour la Data Science : Fondamentaux et Préparation Spark Mixte : présentiel / à distance
Dernière mise à jour : 28/01/2026
Pré-inscription
Présentation
Objectifs
- Acquérir les bases de Scala pour une utilisation efficace avec Spark.
- Comprendre les spécificités du langage par rapport à Python, notamment dans le contexte data science.
- Être capable d'écrire du code Scala propre, idiomatique, prêt à être utilisé avec Spark.
Public visé
Le public visé pour cette formation comprend principalement les data scientists, les chefs de projet et les développeurs.
Cette formation est également adaptée aux statisticiens, consultants Big Data, et data analysts.
Prérequis
- Connaissance solide de Python ou un langage du type Java, notamment dans un contexte notebook et data science
Programme
Jour 1 – Introduction à Scala pour Data Scientists
- Contexte et positionnement de Scala
- Historique et cas d'usage
- Intérêt de Scala dans un environnement Spark
- Scala vs Python pour la data science
- Variables, types, expressions
- Fonctions : déclaration, expression lambda
- Structures de contrôle (if, match, for, while)
- List, Set, Map, Tuple
- Immutabilité, transformation avec map, filter, flatMap
- Comparaison avec les outils Python : pandas, list comprehension, etc.
- Notebooks Scala
- Chargement de fichiers simples (CSV, JSON)
- Affichage de données tabulaires
Exercices pratiques : mini-notebooks de manipulation de données (prétraitement, parsing, regroupement)
Jour 2 – Paradigmes et structuration du code Scala
- Fonctionnel vs impératif
- Réduction des effets de bord
- Fonctions pures, immutabilité, fonctions d'ordre supérieur
- Illustration sur des transformations de données
- Cas d'usage sur des structures de données complexes (JSON, vecteurs, etc.)
- Comparaison avec les structures conditionnelles Python
- case class pour modéliser des données typées
- companion object, méthodes utilitaires
- Introduction à la POO en Scala
- Option, Some, None dans le prétraitement
- Try, Success, Failure dans les chargements et conversions de données
Exercices pratiques : pipeline de préparation de données (nettoyage, enrichissement, typage)
Jour 3 – Scala pour la data science avec Spark (préparation)
- Structuration de notebooks Scala pour Spark
- Organisation du code (fonctions réutilisables, séparations logiques)
- Bonnes pratiques de structuration des notebooks
- Chargement de données CSV, JSON, Parquet
- Préparation des données avant modélisation
- Export de résultats typés
- Notebooks mixtes via %python, %scala
- Cas d'usage : Scala pour les prétraitements, Python pour les modèles
- Objectif : simuler un pipeline data science complet (chargement, nettoyage, enrichissement)
- Structuration idiomatique Scala pour une future utilisation avec Spark
Exercice final : pipeline Scala préparatoire à un traitement Spark distribué
Modalités pédagogiques
Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :
- Formation en présentiel
- En groupe (inter-entreprises ou intra-entreprise)
- En individuel (monitorat)
- En journée ou en cours du soir (sur demande spécifique)
- Formation en distanciel
- Distanciel synchrone
- Distanciel asynchrone
Moyens et supports pédagogiques
- Apports des connaissances communes.
- Mises en situation sur le thème de la formation et des cas concrets.
- Méthodologie d'apprentissage attractive, interactive et participative.
- Equilibre théorie / pratique : 60 % / 40 %.
- Supports de cours fournis au format papier et/ou numérique.
- Ressources documentaires en ligne et références mises à disposition par le formateur.
- Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).
Modalités d'évaluation et de suivi
En amont de la formation :
- Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
- Auto-positionnement des apprenants afin de mesurer le niveau de départ.
Tout au long de la formation :
- Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...
A la fin de la formation :
- Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
- Evaluation par le formateur des compétences acquises par les apprenants.
- Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
- Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.
Informations sur l'admission
Modalités d'admission
- Admission sans disposition particulière