Formation LLMs pour data science augmentée Mixte : présentiel / à distance

Dernière mise à jour : 06/02/2026

Pré-inscription

Veuillez décrire votre situation

Ajouter au panier

Présentation

Cette formation avancée couvre la conception, l’optimisation et l’évaluation de solutions de data science augmentée par les LLMs. En 2 jours, les participants conçoivent des pipelines RAG/Multi-RAG, orchestrent des agents outillés (tools/Function Calling), optimisent prompts et hyperparamètres (temperature, top‑p), et mettent en place des métriques d’évaluation (precision@k, faithfulness). Le cours alterne théorie, démonstrations et TP guidés sur des cas d’usage data et MLOps.

Objectifs

Concevoir des architectures LLM-centric pour la data science (RAG, agents, toolformer) adaptées aux cas d'usage et aux contraintes métier
Optimiser le prompt engineering avancé (prompt chaining, self-consistency, ReAct) et les paramètres d'inférence pour la robustesse et la performance
Mettre en place un pipeline RAG (indexation, chunking, embeddings, retrieval) et l'intégrer à un workflow analytique
Orchestrer des agents outillés avec gestion d'outils (API/SQL/Pandas) et contrôle de l'hallucination (guardrails, schema-guided)
Évaluer et monitorer les systèmes LLM (métriques intrinsèques/extrinsèques, evals basées sur LLM, tests unitaires de prompts) et industrialiser (MLOps/LLMOps

Public visé

Data scientists, ML engineers, data/AI engineers, lead data, architectes IA en contexte entreprise

Prérequis

Solides bases en data science (pandas, scikit-learn), manipulation de données et feature engineering
Connaissance des API de LLM (appels, paramètres, coûts) et des embeddings
Notions de MLOps (environnements, versioning données/modèles)

Programme

Jour 1 – Architecture LLM-centric, RAG avancé et prompt engineering

Session du matin :

Panorama des patterns LLM pour la data science : RAG, multi-RAG, agents, tools, function calling, guardrails

Conception d'un pipeline RAG : préparation corpus, stratégies de chunking (fixed, semantic), embeddings (choix, dimensions), index (FAISS/Chroma)

Prompt engineering avancé : ReAct, chain-of-thought (sans déverbalisation sensible), self-consistency, few-shot sélection (semantic similarity)

TP / Exercice :

Construire un RAG pour QA analytique

Session de l'après-midi :

Implémentation d'un RAG de bout en bout : ingestion, indexation, retrieval (BM25 vs vectoriel), re-ranking, fusion

Réglages d'inférence : température, top‑p, top‑k, fréquence/presence penalty, longueur de contexte et coût/performance

Observabilité et sécurité : traces, guardrails (schémas, listes contrôlées), gestion de PII et conformité

TP / Exercice :

Construire un RAG pour QA analytique

Description : créer un corpus, tuner chunking/embeddings, comparer retrieveurs, intégrer un re-ranker et évaluer precision@k et exact match. Livrable : notebook avec pipeline RAG, métriques et justification des choix.

Points clés & takeaways :

Savoir concevoir et évaluer un pipeline RAG robuste

Maîtriser prompts et paramètres d'inférence pour la stabilité et les coûts

Jour 2 – Agents outillés, LLMOps et évaluation des systèmes

TP / Exercice : Orchestrer un agent analytique outillé

Agents et tools pour la data science : planification, exécution outillée (SQL, Pandas, API), function calling/schema-guided

Contrôle d'hallucination et robustesse : verification steps, tool-use first, constrained decoding, régles/guardrails

Évaluation : métriques extrinsèques (task success, latency, coût), métriques intrinsèques (faithfulness, groundedness), evals par LLM et tests de régression de prompts

Session de l'après-midi :

LLMOps : versioning prompts/datasets, traces, monitoring, AB testing, canary, budget/cost guards

Déploiement : API, conteneurisation, secrets, gestion des clés et journalisation

Gouvernance et risques : biais, conformité, sécurité des données, policy enforcement

TP / Exercice : Orchestrer un agent analytique outillé

Description : mettre en œuvre un agent capable de répondre à des questions business via SQL/Pandas et vérification de réponses. Livrable : notebook + script d'évaluation (scénarios, métriques) et rapport d'itérations.

Points clés & takeaways :

Concevoir des agents fiables avec outillage contrôlé

Structurer un cadre d'évaluation et d'industrialisation (LLMOps)

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

Formation en présentiel

En groupe (inter-entreprises ou intra-entreprise)
En individuel (monitorat)
En journée ou en cours du soir (sur demande spécifique)

Formation en distanciel

Distanciel synchrone
Distanciel asynchrone

Moyens et supports pédagogiques

Apports des connaissances communes.
Mises en situation sur le thème de la formation et des cas concrets.
Méthodologie d'apprentissage attractive, interactive et participative.
Equilibre théorie / pratique : 60 % / 40 %.
Supports de cours fournis au format papier et/ou numérique.
Ressources documentaires en ligne et références mises à disposition par le formateur.
Pour les formations en présentiel dans les locaux mis à disposition, les apprenants sont accueillis dans une salle de cours équipée d'un réseau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropriés est mis à disposition (le cas échéant).

Modalités d'évaluation et de suivi

En amont de la formation :

Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).
Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation :

Évaluation continue des acquis avec des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation :

Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.
Evaluation par le formateur des compétences acquises par les apprenants.
Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.
Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Informations sur l'admission

Nous consulter.

Modalités d'admission

Admission sans disposition particulière

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

Catégorie : Data et IA Appliquée
Sous-Catégorie : Data Science & Machine Learning
Durée : 14h
Prix : 1 580 € HT

Prix INTRA : Nous consulter
Référence : MOD_20261889
Satisfaction :

★★★★★

★★★★★
Taux de réussite : - %
Télécharger le programme

Accessibilité à nos formations

Si vous êtes en situation de handicap, contactez-nous avant le début de votre formation pour que nous puissions vous orienter efficacement et vous accueillir dans les meilleures conditions.

Inscription possible jusqu'à 10 jours avant le démarrage de la formation

Prochaines Sessions

Cette formation n'est pas programmée pour le moment.

Contactez-nous pour planifier une session ensemble !

Dans la même catégorie

Voir toutes les formations