Formation Spark : La Data Science à l’échelle avec Spark les 26, 27 et 28 mars 2019

formation spark
Publié le 1 February 2019

Soft Computing, vivier de compétences Data Science et Data Ingénierie vous propose une formation sur l’utilisation de Spark par les Data Scientists.

SPARK est un moteur d’analyse de données massive, sa richesse fonctionnelle lui confère une utilisation tant par les Data Ingénieurs que par les Data Scientists pour des besoins de préparation de données, d’analyse de données interactive et de Machine Learning :

  • Il est libre de droit et soutenu par des acteurs majeurs. Spark tire naturellement parti des infrastructures Big Data,
  • Il est accessible par Scala, Python, R et via des notebook, Spark est rendu accessible aux non développeurs,
  • Il est utilisé pour la mise en production batch et/ou du temps réel,
  • Librairies de Machine Learning à grande échelle dotées d’algorithmes et de fonctions adaptées aux données massives : hashing, collaborative filtering.

Prochaine session :
les 26, 27 et 28 mars 2019 à Paris

Je m’inscris

Objectifs de la formation et compétences visées :

L’objectif de la formation est :

  • Comprendre l’utilisation de Spark en Big Data,
  • Comprendre la différence entre les différents langages et le fonctionnement de Spark,
  • Manipuler et analyser les données de manière interactive en environnement notebook,
  • Réaliser des modèles supervisés et non supervisés de Machine Learning.

Profil concerné :

  • Data Scientist,
  • Data Analyst, Data Miner,
  • Statisticien,
  • Data Ingénieurs,
  • Spécialiste BI et Data.

Prérequis :

  • Compétences en traitement de données,
  • Connaissances SQL,
  • Connaissances d’un langage Python ou R ou SAS.

Modalités :

  • 1 800 € HT / personne (2 160 TTC €),
  • Formation en intra entreprise possible, nous consulter,
  • 9h – 17h30 (21 heures de formation),
  • Déjeuners compris dans le coût de la formation.

Modalités d’évaluation :

  • 50 % du temps global de la formation est dédié aux exercices et démonstrations.

Programme :

Jour 1 : Les fondamentaux

  • Situer Spark, quels usages Data ?
  • Spécificités moteur Spark (lazy, driver, in memory…),
  • Langages : Scala vs Pyspark, Pyspark vs Python,
  • Développement, batch, déploiement, programmation, monitoring, debugging.

Jour 2 : Manipuler et explorer les données

  • Rappels langage et syntaxe Python,
  • RDD : comment structurer le non structuré,
  • Dataframe, Spark.SQL,
  • Algorithmes supervisés avec Scikit-Learn,
  • Lecture de fichiers, connecteurs HIVE, json…

Jour 3 : Machine Learning « at Scale »

  • Concepts de Machine Learning et spécificités à l’échelle : hashing trick…,
  • MLlib, vocabulaire,
  • Feature engineering,
  • Algorithmes supervisés et non supervisés,
  • Exercices : analyse de sentiment, moteur de recommandation, scores.

Inscription :

Prochaine session :
les 26, 27 et 28 mars 2019 à Paris

Je m’inscris

Numéro d’agrément de formation : 11 75 43610 75

Adresse

55, quai de Grenelle | 75015 PARIS
Pour voir le plan cliquez ici

Pour tous renseignements, contacter Ilana Cerini au : 01 73 00 55 00

Soft Computing, Publicis Groupe, est leader du conseil en sciences et technologies de la Data et du digital appliquées au marketing et à l’expérience client. Elle emploie plus de 400 experts et réalise un chiffre d’affaires de 47 M€, dont 21% à l’international, avec 200 clients qui sont principalement de grandes entreprises du retail, de la finance et des services.