Au fait,
c’est quoi Spark ? 

spark : Little sketchy men - problem and solution concept

Deux cent : c’est le nombre d’entreprises qui contribuent au succès d’Apache Spark. Depuis 2009, l’année de sa création dans un laboratoire de l’université de Berkeley, plus de mille développeurs ont participé à son évolution !

Ma curiosité intellectuelle m’a conduit à vouloir en savoir plus sur cette technologie. J’ai tout naturellement suivi une formation très complète pour développeurs, axée sur cette technologie. L’idée était d’approfondir mes connaissances sur ce framework et de confronter mes idées avec celles des autres participants.

Spark est un moteur de traitement de données à grande échelle qui fonctionne sur des clusters Hadoop et traite les données dans HDFS, le système de fichiers de données natif d’Hadoop.

Bonne nouvelle !

Avec Spark, les développeurs peuvent écrire très simplement des codes distribués complexes en Java, Scala, Python et R.

Son champ d’action est assez large :

  • Machine Learning
  • Business Intelligence
  • Streaming
  • Traitement en mode batch
  • Requêtage sur des données structurées

De plus, Spark offre un modèle de programmation plus simple que celui du très connu Map Reduce et surtout plus rapide avec des temps d’exécution jusqu’à cent fois plus courts.

Reconnaissons-le ! Dans un projet data d’envergure, cela ne peut être négligeable.

Je me souviens d’un cas d’étude en mission où je devais traiter en mode batch un flux de données d’environ vingt-cinq millions de lignes. Je vous avouerais que Spark m’a été d’une grande aide. Plus précisément Pyspark, l’API qui permet d’utiliser le modèle de programmation Spark avec du Python.

Une question me vient à l’esprit au moment de conclure cet article : à quel moment devrait-on développer une application Spark ?

Tout simplement, si on doit gérer de la volumétrie : de l’ordre du gigaoctet de données.

Alpha SY – Publié le 28 Novembre 2017

A lire également : Quels langages de programmation pour le Data Scientist ?  

Share This