Formation Big Data, Les clefs pour être Data Scientist Mixte : présentiel / à distance
Dernière mise à jour : 14/04/2026
Pré-inscription
Présentation
Cette formation offre une introduction complète au Big Data et à la Data Science, en couvrant les principes fondamentaux du Big Data, l'écosystème Hadoop, et les différences entre bases de données relationnelles et non relationnelles. Elle inclut également des modules sur la manipulation de données avec Pandas, NumPy et Spark, ainsi que sur l'apprentissage automatique avec Spark MLlib. Enfin, elle aborde les freins à l'usage de l'IA et propose des projets pratiques pour appliquer les connaissances acquises.
Objectifs
- Comprendre les concepts fondamentaux du Big Data et de la data science.
- Apprendre à utiliser Python et Scala pour l'analyse de données.
- Découvrir les frameworks de traitement de données comme Apache Spark.
- Savoir appliquer les techniques de machine learning dans un environnement Big Data.
Public visé
- Ingénieurs en informatique
- Data analysts
- Développeurs intéressés par le Big Data
- Toute personne souhaitant devenir Data Scientist
Prérequis
- Connaissances de base en informatique : notions fondamentales sur les systèmes d'exploitation.
- Compétences en programmation : connaissance de base en Python.
- Bases de données : familiarité avec les bases de données relationnelles (MySQL) et non relationnelles (Cassandra, MongoDB).
- Notions de base en Machine Learning.
- Big Data : connaissances élémentaires sur les systèmes distribués et les architectures Big Data (Hadoop, HDFS, YARN, MapReduce).
- Data Science : compétences de base pour manipuler et analyser des données.
Programme
JOUR 1 : Introduction au Big Data et à la Data Science
Module 1 : Introduction au Big Data
- Principes fondamentaux du Big Data.
- Écosystème Hadoop et ses composants (HDFS, YARN, MapReduce).
- Différences entre bases de données relationnelles et non relationnelles (MySQL vs Cassandra, MongoDB).
Module 2 : La Data Science et la Transformation de Données
- Introduction à la Data Science.
- Manipulation de données avec Pandas et NumPy.
- Introduction à Spark pour le Big Data.
- Travaux pratiques : manipulation de données simples avec Scala.
JOUR 2 : Frameworks de Traitement de Données avec Spark
Module 3 : Cadres de traitement de données
- Présentation d'Apache Spark.
- Traitement de données massives avec Spark en Python et Scala.
- Notions de RDD, DataFrame et SparkSQL.
Travaux pratiques :
- Manipulation de données avec Spark en Python et Scala.
- Création et utilisation de DataFrames et RDDs avec Spark.
Objectifs : apprendre à traiter des données volumineuses avec Spark.
JOUR 3 : Machine Learning avec Spark (1)
Module 4 : Apprentissage automatique (1)
- Concepts de base du Machine Learning.
- Préparation des données pour le Machine Learning.
- Implémentation de modèles de Machine Learning avec Spark MLlib.
Travaux pratiques :
- Mise en œuvre de modèles de Machine Learning avec Spark MLlib.
- Création et évaluation de modèles avec des jeux de données massifs.
JOUR 4 : Machine Learning avec Spark (2) et Freins à l'Usage de l'IA
Module 5 : Apprentissage automatique (2)
- Types avancés de Machine Learning.
- Exercices pratiques : apprentissage non supervisé et clustering.
Les freins à l'usage de l'IA et des données :
- Identification des barrières à l'adoption de l'IA et des données.
- Analyse des enjeux éthiques de l'IA et du RGPD.
- Étude des obstacles techniques, culturels et organisationnels.
Travaux pratiques : discussion en groupe sur les obstacles à l'adoption de l'IA dans différents contextes (entreprises, gouvernements, etc.).
JOUR 5 : Projets Pratiques et Études de Cas
Module 6 : Projets pratiques et études de cas
- Analysez un jeu de données massif avec Spark.
Travaux pratiques :
- Projets en groupe pour analyser un jeu de données massif, appliquer des modèles de Machine Learning et visualiser des rapports d'analyse.
- Présentation des projets en groupe avec retour d'expérience.
Modalités pédagogiques
Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :
- Formation en présentiel
- En groupe (inter-entreprises ou intra-entreprise)
- En individuel (monitorat)
- En journée ou en cours du soir (sur demande spécifique)
- Formation en distanciel
- Distanciel synchrone
- Distanciel asynchrone
Moyens et supports pédagogiques
- Apports des connaissances communes.
- Mises en situation sur le thème de la formation et des cas concrets.
- Méthodologie d'apprentissage attractive, interactive et participative.
- Equilibre théorie / pratique : 60 % / 40 %.
- Supports de cours fournis au format papier et/ou numérique.
- Ressources documentaires en ligne et références mises à disposition par le formateur.
- Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).
Modalités d'évaluation et de suivi
En amont de la formation
- Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
- Auto-positionnement des apprenants afin de mesurer le niveau de départ.
Tout au long de la formation
- Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...
A la fin de la formation
- Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
- Evaluation par le formateur des compétences acquises par les apprenants.
- Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
- Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.
Informations sur l'admission
Nous consulter.
Modalités d'admission
- Admission sans disposition particulière
Accessibilité
Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.