Python pour la Data Science | Pandas, NumPy, Scikit learn Mixte : présentiel / à distance
Dernière mise à jour : 16/10/2025
Pré-inscription
Présentation
Objectifs
• Utiliser NumPy pour les calculs numériques sur tableaux multidimensionnels
• Manipuler efficacement des données tabulaires avec Pandas
• Créer des visualisations claires avec Matplotlib et Seaborn
• Préparer les données pour la modélisation (feature engineering, normalisation)
• Appliquer des algorithmes de machine learning avec Scikit-learn
• Évaluer les performances d'un modèle prédictif
Public visé
• Développeurs ou ingénieurs souhaitant se spécialiser en Data Science
• Étudiants en informatique, mathématiques, statistiques
• Responsables métier ou chefs de projet souhaitant monter en compétences sur la donnée
• Toute personne intéressée par l'analyse et la modélisation des données avec Python
Prérequis
• Connaissances de base en statistiques descriptives (moyenne, écart-type, corrélation…
• Notions de manipulation de fichiers CSV ou Excel
Programme
Jour 1 : Fondamentaux et NumPy
• Introduction à Python pour la Data Science
• Jupyter Notebook et environnement Anaconda
• Introduction à NumPy
  o Tableaux ndarray, indexation, slicing
  o Fonctions mathématiques vectorisées
  o Opérations sur matrices, statistiques de base
• Génération de données aléatoires (simulateurs, distributions)
• Manipulation d'axes, reshape, broadcast
• Introduction aux visualisations avec Matplotlib
TP : Simulation de données + opérations statistiques sur matrices
Â
Jour 2 : Manipulation de données avec Pandas
• Séries et DataFrames : création, import/export (CSV, Excel, JSON)
• Accès aux données (loc, iloc, at, iat)
• Nettoyage : gestion des valeurs manquantes, duplication, typage
• Filtres conditionnels, tri, regroupement (groupby)
• Agrégations et statistiques descriptives
• Merge, join, concaténation de DataFrames
TP : Nettoyage et analyse d'un jeu de données (ex : Airbnb, Titanic, données RH)
Â
Jour 3 : Visualisation de données
• Visualisation avec Matplotlib : courbes, histogrammes, barres
• Introduction à Seaborn : styles, palettes, intégration avec Pandas
• Visualisation statistique : boxplots, heatmaps, pairplots
• Analyse exploratoire de données (EDA)
• Détection d'anomalies visuelles, corrélations, distribution
• Graphiques croisés dynamiques
TP : Exploration graphique d'un dataset complet (ex : santé, marketing, transport)
Â
Jour 4 : Introduction au Machine Learning avec Scikit-learn
• Introduction au Machine Learning : supervision vs non-supervision
• Séparation train/test, train_test_split, pipelines
• Modèles supervisés : régression linéaire, k-NN, arbre de décision
• Évaluation de modèle : précision, rappel, F1-score, courbe ROC
• Méthodes de validation croisée (cross_val_score)
• Feature scaling, normalisation
TP : Prédiction d'un score (ex : prix d'un logement, revenu, classification binaire)
Â
Jour 5 : Atelier projet & approfondissements
• Feature engineering : création de variables, encodage
• Algorithmes avancés (Random Forest, SVM – introduction)
• GridSearch et tuning des hyperparamètres
Modalités pédagogiques
Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :
-
- Formation en présentiel
- En groupe (inter-entreprises ou intra-entreprise)
- En individuel (monitorat)
- En journée ou en cours du soir (sur demande spécifique)
- Formation en distanciel
- Distanciel synchrone
- Distanciel asynchrone
- Formation en présentiel
Moyens et supports pédagogiques
- Apports des connaissances communes.
- Mises en situation sur le thème de la formation et des cas concrets.
- Méthodologie d'apprentissage attractive, interactive et participative.
- Equilibre théorie / pratique : 60 % / 40 %.
- Supports de cours fournis au format papier et/ou numérique.
- Ressources documentaires en ligne et références mises à disposition par le formateur.
- Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).
Modalités d'évaluation et de suivi
En amont de la formation
- Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
- Auto-positionnement des apprenants afin de mesurer le niveau de départ.
Â
Tout au long de la formation
- Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...
Â
A la fin de la formation
- Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
- Evaluation par le formateur des compétences acquises par les apprenants.
- Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
- Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.
Informations sur l'admission
Modalités d'admission
- Admission sans disposition particulière