Présentation d'Apache Spark
- Introduction et historique
- Les langages de programmation supportés par Spark (Scala, Python et Java)
- Comparaison avec l'environnement Apache Hadoop
- Les modules de Spark (Spark SQL, Spark Streaming, MLlib, GraphX )
Â
Resilient Distributed Dataset (RDD)
- C'est quoi un RDD ?
- Créer, manipuler et réutiliser des RDD
- Accumulateurs et variables broadcastées
- Utiliser des partitions
Â
Manipuler des données structurées avec Spark SQL
- SQL, DataFrames et Datasets
- Les différents types de sources de données
- Interopérabilité avec les RDD
- Performance de Spark SQL
- JDBC/ODBC server et Spark SQL CLI
Â
Spark sur un cluster
- Les différents types d'architectures : Standalone, Apache Mesos ou Hadoop YARN
- Configurer un cluster en mode Standalone
- Packager une application avec ses dépendances
- DĂ©ployer des applications avec Spark-submit
- Dimensionner un cluster