Formation Big Data,Méthodes et solutions pratiques pour l'analyse des données Mixte : présentiel / à distance

Dernière mise à jour : 06/02/2026

Pré-inscription

Veuillez décrire votre situation

Ajouter au panier

Présentation

Cette formation intermédiaire propose une approche pragmatique du Big Data appliqué à l’analyse des données. Sur trois jours, les participants apprennent à analyser des besoins, mettre en œuvre des pipelines d’ingestion et de préparation, configurer des traitements distribués (batch/stream) et produire des visualisations et indicateurs exploitables en contexte entreprise.

Objectifs

Analyser des besoins analytiques et définir un périmètre Big Data adapté
Mettre en œuvre l'ingestion et la préparation à l'échelle (formats colonnes, partitionnement)
Configurer des traitements distribués (batch/stream) et orchestrer des workflows
Mettre en œuvre des visualisations et tableaux de bord orientés décision
Analyser la performance et la qualité des données pour fiabiliser les usages

Public visé

- Data analysts, data engineers et développeurs évoluant vers la data à l'échelle

- Équipes BI/IT souhaitant industrialiser l'analyse de données volumineuses

Prérequis

Connaissances de base en SQL
Notions de manipulation de données (CSV, JSON)
Familiarité avec un langage de script (Python de préférence)

Programme

Jour 1 – Ingestion, stockage et préparation à l'échelle

Session du matin :

- Panorama Big Data pour l'analyse : cas d'usage, limites et bonnes pratiques

- Modélisation des zones de données (bronze/silver/gold) et data lake/lakehouse

- Formats et optimisation : Parquet/ORC, partitionnement, schémas et évolutions

Session de l'après-midi :

- Ingestion multi-sources (fichiers, API) et validation de schémas

- Préparation des données : nettoyage, jointures, agrégations, enrichissement

- Contrôles de qualité : règles, métriques et traçabilité

TP / Exercice :

Construire un pipeline d'ingestion et préparation d'un dataset volumineux (CSV/JSON → format colonne), avec contrôle qualité minimal. Livrables : scripts + diagramme de flux + rapport qualité.

Points clés & takeaways :

- Savoir choisir formats et stratégies d'ingestion adaptés au volume

- Maîtriser une chaîne de préparation reproductible et contrôlée

Jour 2 – Traitements distribués et orchestration

Session du matin :

- Traitements batch et streaming : principes, usages et arbitrages

- Notions de performance : partitions, parallélisme, coût vs latence

- Tests et observabilité : logs, métriques, profiling de jobs

Session de l'après-midi :

- Orchestration (ex. Airflow/Prefect) : DAG, dépendances, retries, SLA

- Mise en œuvre d'un job distribué sur échantillon réel (Spark/équivalent)

- Reprise après incident et idempotence

TP / Exercice :

Développer un workflow orchestré pour alimenter un datamart analytique (batch + micro-batch), avec métriques de performance. Livrables : DAG + code + tableau de métriques.

Points clés & takeaways :

- Capacité à exécuter et fiabiliser des traitements à l'échelle

- Mise en place d'une observabilité minimale utile à l'exploitation

Jour 3 – Visualisation, KPIs et restitution décisionnelle

Session du matin :

- Conception d'indicateurs : définitions, granularités, périodicités

- Bonnes pratiques de visualisation : choix de graphes et storytelling

- Publication et partage : data contracts, gouvernance et sécurité (aperçu)

Session de l'après-midi :

- Construction d'un tableau de bord de bout en bout (KPI, tendances, alertes)

- Documentation et checklist d'exploitation (rafraîchissement, qualité, coûts)

- Revue finale : limites, améliorations et feuille de route

TP / Exercice :

Créer un dashboard opérationnel alimenté par le pipeline J1–J2, incluant KPIs, filtres et alertes simples. Livrables : dashboard + note d'exploitation.

Points clés & takeaways :

- Produire des restitutions utiles et actionnables

- Relier pipeline, qualité et décision métier de façon cohérente

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

Formation en présentiel

En groupe (inter-entreprises ou intra-entreprise)
En individuel (monitorat)
En journée ou en cours du soir (sur demande spécifique)

Formation en distanciel

Distanciel synchrone
Distanciel asynchrone

Moyens et supports pédagogiques

Apports des connaissances communes.
Mises en situation sur le thème de la formation et des cas concrets.
Méthodologie d'apprentissage attractive, interactive et participative.
Equilibre théorie / pratique : 60 % / 40 %.
Supports de cours fournis au format papier et/ou numérique.
Ressources documentaires en ligne et références mises à disposition par le formateur.
Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).

Modalités d'évaluation et de suivi

En amont de la formation :

Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation :

Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation :

Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
Evaluation par le formateur des compétences acquises par les apprenants.
Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Informations sur l'admission

Nous consulter.

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

Catégorie : Data et IA Appliquée
Sous-Catégorie : Big Data
Durée : 21h
Prix : 2 150 € HT

Prix INTRA : Nous consulter
Référence : MOD_20261909
Satisfaction :

★★★★★

★★★★★
Taux de réussite : - %
Télécharger le programme

Accessibilité à nos formations

Si vous êtes en situation de handicap, contactez-nous avant le début de votre formation pour que nous puissions vous orienter efficacement et vous accueillir dans les meilleures conditions.

Inscription possible jusqu'à 10 jours avant le démarrage de la formation

Prochaines Sessions

Cette formation n'est pas programmée pour le moment.

Contactez-nous pour planifier une session ensemble !

Dans la même catégorie

Voir toutes les formations

Formation Big Data,Méthodes et solutions pratiques pour l'analyse des données Mixte : présentiel / à distance

Pré-inscription

Présentation

Objectifs

Public visé

Prérequis

Programme

Modalités pédagogiques

Moyens et supports pédagogiques

Modalités d'évaluation et de suivi

Informations sur l'admission

Accessibilité

Accessibilité à nos formations

Session sélectionnée

Prochaines Sessions

Dans la même catégorie