Les IHMs

  • -

Les IHMs

Category : IHM , interface graphique

La manipulation de données dans un environnement Big Data n’est pas chose aisée. Aussi le besoin devient pressant d’avoir une interface homme-machine plus intuitive.

Les distributions telles Cloudera et Hortonworks proposent HUE, acronyme de Hadoop User Experience.

HUE (Hadoop User Experience)

Hue permet d’interfacer un bon nombre de composant de l’écosystème Big Data open source et qui a pour vocation, comme son nom l’indique de fournir une expérience utilisateur complète.

Il a pour ambition est de fournir les outils de traitement de données, de transformation, d’indexation et d’analyse graphique.

Le menu principal de Hue est organisé en 4 catégories :

  • Query editors :
    • On y trouvera, Pig, Impala (distrib. Cloudera), Hive en natif, mais on peut configurer son propre SGBD Postgres ou Mysql.
  • Data Browser:
    • Les gestionnaires de données  : Metastore, HBase, Sqoop, Zookeeper.
  • Workflow
    • Tout ce qui concerne le monitoring et l’édition de jobs.
  • Search
    • Indexation de données propulsé par Solr – Lucene et possibilité de créer des dashboards.

Zeppelin

Zeppelin est avant tout un logiciel qui s’adresse aux data scientists qui s’appuie sur Spark, et un nombre important d’autres interpréteurs.

Il est possible de créer plusieurs notebooks.

Un notebook type est constitué de plusieurs blocs.

On peut considérer d’implémenter un bloc principal dont la tâche principale est de charger les données en mémoire.

D’un simple clic on peut créer d’autres blocs qui seront des requêtes SQL (paramétrée ou non) et qui seront automatiquement illustrées d’un graphique.

Une fois le graphique affiché on peut passer d’un graphe histogramme à un graphe en secteurs, en lignes, en points, de permuter les lignes avec les colonnes, changer le critère de regroupement.

Le comparatif

Pour être pleinement opérationnel, Hue nécessite l’installation et la configuration de plusieurs composants alors que Zeppelin, peut s’appuyer sur Spark et optionnellement sur d’autres interpréteurs pour fonctionner.

Hue a pour vocation de s’amender de l’apprentissage des langages de programmation ou d’interrogation de données (SQL).
Son ambition est de permettre aux utilisateurs de charger, transformer, combiner les données entre elles avec les Query Editors et Data Browsers pour ensuite générer des jobs dont le résultat pourra être indexé par Solr – Lucene. Enfin la fonctionnalité de Dashboad permettra de faire des analyses graphiques.

Zeppelin quant à lui affiche la couleur : scala obligatoire. Mais en contrepartie, le résultat ne se fait pas attendre dans la mesure où on paramètre correctement le dimensionnement mémoire de la machine virtuelle, du Driver et de Workers.

Hue est certes très complet et met en oeuvre le cluster Big Data cependant il demeure nécessaire de faire appel à la ligne de commande pour avoir des explications précises sur les erreurs de compilation ou d’indexation ou tout simplement gagner en efficacité d’exécution.