Soft Computing
  • English (UK)

Dictionnaire Big Data

ACID

Une transaction sur une base de données est un ensemble d’opérations, modifiant des données, devant être effectuées toutes en même temps ou pas du tout. Une transaction est caractérisée par les propriétés suivantes, connues sous le terme ACID :
Atomicité : La transaction ne peut qu’être effectuée totalement ou pas du tout ;
Cohérence : Les états du système sont cohérents avant et après la transaction ;
Isolation : La transaction n’est pas influencée par l’exécution d’autres transactions ;
Durabilité : Le résultat de la transaction est conservé de manière pérenne dans le système d’information.

Ad Exchange

Adex (pour "Ad Exchange", littéralement "bourse publicitaire") est une bourse électronique qui gère des ordres d’achats et de ventes d’espaces publicitaires sur des réseaux de sites. On y trouve Doubleclick (google), Appnexus, Orange Ad Market…

Anonymisation

L’anonymisation est un processus de traitement des données qui élimine les données d’identité afin notamment de respecter la vie privée des individus. Elle peut être irréversible ou réversible, auquel cas on peut parler aussi de pseudonymisation.

Apache

La "Apache Software Foundation" est une communauté de développeurs qui travaillent conjointement sur des projets open source. La plupart des souches Big Data (Hadoop, Spark, Storm, Cassandra, Solr…) viennent de cette communauté.

Aster

L’offre nCluster de Aster Data Systems, racheté en 2011 par Teradata est devenu Aster, l’offre Big Data Appliance de Teradata.

Big Data Appliance

Big Data Appliance, c’est le nom qu’Oracle donne à sa solution Big Data qui est une intégration sur sa plate-forme hardware hérité de Sun, d’une distribution Big Data Cloudera et d’un certain nombre d’outils complémentaires par exemple pour la visualisation de données.

Big Insights

Big Insights for Hadoop est la déclinaison par IBM de la suite de ses composants analytiques (Cognos, SPSS, …) sur l’écosystème Hadoop.

Bigtable

BigTable est une base de données orientée colonne dont la version open source a notamment été dérivée dans HBase et Cassandra. Elle fait partie des services accessibles dans la plateforme cloud Google App Engine.

Brewer (théorème de cap)

Eric Brewer, de Berkeley, puis Nancy Lynch du MIT, ont édicté puis démontré le théorème de Brewer, aussi connu sous le nom du théorème de CAP (Consistency, Availability, Partition tolerance). Celui-ci établit qu’à un instant t, un système informatique distribué ne peut pas être à la fois cohérent (données identiques partout), disponible (toute requête reçoit une réponse) et tolérant (continuité de fonctionnement en cas de panne d’une partie du réseau). Les bases de données SQL se sont focalisées sur la cohérence en sacrifiant soit la disponibilité soit la tolérance. Le nosql (not only sql) a cherché des réponses alternatives en acceptant de sacrifier la cohérence des données à certains moments.

Cassandra

Cassandra est une base de données initialement développée par Facebook qui a mis les sources à disposition de la communauté Open Source. Elle est orientée colonne et inspirée de Google Bigtable.

Clé valeur (base de données)

Une base de données clé-valeur, comme son nom l’indique, stocke l’identifiant et son contenu. Redis ou DynamoDB en sont des exemples. Elles apportent souplesse (car sans schéma), tolérance (car généralement distribuées) et rapidité (car totalement indexées). Efficace sur des accès unitaire, elles sont moins adaptées pour des balayages de tables.

Cloudera

Cloudera est l’une des principales distributions commerciales de Hadoop. L’éditeur propose une version communautaire ainsi que des outils qui lui sont spécifiques comme Impala par exemple.

Cluster

Ensemble de machines physiques autonomes (serveurs, nœuds) reliées entre elles par un réseau et pouvant partager des disques.

Cohérence

Cohérence (ou consistance des données) (Consistency en anglais): tous les nœuds du système voient exactement les mêmes données au même moment.

Colonne (base de données orientée)

Les SGBD relationnel stockent les données en ligne (ie : les données d’une même ligne sont proches les unes des autres). Les bases de données orientées colonnes stockent à proximité les données d’une même colonne. Ce stockage est optimum lorsque les traitements nécessitent de balayer une grande partie de la table. A contrario, ils sont pénalisants lorsqu’il s’agit de lire un ou quelques enregistrements.

Cookie

Le cookie est un fichier déposé par un tag posé sur une page ou un site qui permettra de reconnaître le browser ou le device lors d’une visite ultérieure. Les cookies peuvent être first, second ou third party.

CouchDB

CouchDB est une base de données orientée documents.

Data Lake

Le Data Lake est à HDFS ce que les datawarehouses étaient à sql : de vastes zones de stockage de données déposées au niveau du détail. Par rapport au datawarehouse, le Data Lake est stocké sur HDFS principalement, sans schéma et sans transformation et la qualité des données n’est généralement pas ou peu traitée en amont de l’alimentation.

Data Management Platform

La DMP (Data Management Platform) stocke des données de navigation web, généralement associées à des identifiants de type cookie, et supporte trois fonctions principales : analyse des audiences, ciblages des campagnes médias online et mesure des résultats.

DataNode

Un DataNode contient les blocs de données. Les DataNodes sont sous les ordres du NameNode et sont surnommés les Workers. Ils sont donc sollicités par les NameNodes lors des opérations de lecture et d’écriture. En lecture, les DateNodes vont transmettre au client les blocs correspondant au fichier à transmettre. En écriture, les DataNodes vont retourner l’emplacement des blocs fraîchement créés. Les DataNodes sont également sollicités lors de l’initialisation du NameNode et aussi de manière périodique, afin de retourner la liste des blocs stockés.

Demand Side Platforme (DSP)

La DSP est un outil pour gérer des ordres d’achats d’espaces sur plusieurs adex (bourses d’espaces publicitaires). On y trouve des outils tels que Adobe Media Optimizer, Turn ou Mediamath par exemple.

Disponibilité

Disponibilité (Availability en anglais) : garantie que toutes les requêtes reçoivent une réponse.

Distribué

La distribution, en informatique, consiste à répartir des traitements ou des données sur plusieurs unités. MapReduce par exemple est un système de traitement distribué. Hadoop est un système de stockage distribué. La distribution est un pré-requis pour la tolérance et la disponibilité.

Document (base de données)

Pour simplifier, une base de données document est une base de données clé-valeur dans laquelle des valeurs peuvent elles-mêmes contenir des valeurs multiples ou d’autres clé-valeurs. MongoDB, Couchdb par exemple sont des bases de données document. L’intérêt d’une base de données document est que tout est indexé ce qui permet des recherches très rapides.

Données utiles

Les volumes de données en Big Data sont calculés à partir de la donnée utile (nombre de "lignes" fois volume par ligne) auquel sont appliqués des coefficients de redondance (3 classiquement) et de compression (0,6 généralement).

Drill

Drill est un composant de la distribution MapR qui facilite l’accès aux données Hadoop via des requêtes de type SQL.

DynamoDB

Dynamodb est la solution cloud d’Amazon en matière de base de données clé-valeur.

Edge Node

Le edge node correspond à l’ensemble des composants complémentaires à Hadoop pour exécuter les traitements distribués parallèles. Ces composants sont de deux types : autonomes, ils sont déployés sur le Data Lake une seule et unique fois; client-serveur (maître sur le Edge Node et Esclaves/Agents sur le DataNode près de la donnée) comme par exemple Impala ou HBase.

Elastic Map Reduce

EMR est la solution cloud d’Amazon pour programmer et exécuter des traitements MapReduce.

Elasticsearch

Elasticsearch, dérivé de Lucene, est un moteur de recherche d’informations sur des documents au sens large ; il est issu du monde Open Source, clusterisé, automatiquement sauvegardé et répliqué, interrogeable via une API REST (avec de simples requêtes HTTP/JSON); il propose toutes les fonctionnalités d’un moteur de recherche dernière génération à la manière de Google. Cet outil est intégré dans la distribution Hortonworks.

Fingerprint

Avec l’avènement du "do not track", les cookies sont de plus en plus controversés et de moins en moins utilisables pour identifier un browser ou un device. De nouvelles techniques d’identification unique, regroupées sous le nom de fingerprinting, sont développées pour remplacer l’identification par cookie. Par exemple, une clé générée à partir des polices et des extensions installées sur un navigateur est considérée comme quasiment unique.

First Party Data

First Party désigne les données qui sont créées par une entreprise dans le cadre de ses activités comme les transactions ou les traces des visites sur ses sites internet. Elles se distinguent des données second et third party.

Flume

Flume est une sorte d’ETL pour transformer les données dans l’écosystème Hadoop.

Graphe (base de données orientée)

Les bases de données orientées graphe ont été conçues pour gérer des relations entre individus et faciliter la navigation dans ses relations. Elles permettent simplement de chercher les individus connectés à d’autres individus, de calculer des proximités entre individus... comme ce que proposent les réseaux sociaux.

Greenplum

Greenplum a été racheté par EMC et constitue l’offre de ce spécialiste du stockage en matière de Big Data, sous le nom de Pivotal Big Data Suite.

Hadoop

Hadoop est un ensemble de frameworks Java destiné à faciliter la création d’applications distribuées et scalables, permettant aux applications de travailler avec des milliers de nœuds et des pétaoctets de données sur de simples machines x86 montées en grappe (Cluster) avec une tolérance et une disponibilité maximum. Il a donné lieu entre autre à la création d’un système de gestion de fichiers distribués (HDFS pour Hadoop Distributed File System).

HANA

HANA est l’offre phare de SAP en matière de stockage/accès Big Data concentrée autour d’une base de données orientée colonne et in memory.

HBase

HBase est une base de données NOSQL orientée colonnes (non relationnelle) dérivée de Google Bigtable et s’appuyant généralement sur le système de gestion de fichiers HDFS.

Hcatalogue

HCatalog est une couche de métalangage permettant d’attaquer les données HDFS via des schémas de type tables de données en lecture/écriture et notamment les métadonnées de Hive.

HDFS

HDFS est le système de gestion de fichiers distribués open source d’Hadoop conçu pour pouvoir traiter n’importe quel volume avec une tolérance et une disponibilité maximum sur des machines où les données sont réparties.

Hive

Hive est une surcouche SQL sur Hadoop qui permet de coder des requêtes proche du SQL et d’en générer des traitements distribués MapReduce. Pour se faire, Hive s’appuie sur un dictionnaire de données.

Hortonworks

Hortonworks est l’une des principales distributions commerciales de Hadoop. L’éditeur propose une version communautaire ainsi que des outils qui lui sont spécifiques. Horton est notamment commercialisée par Microsoft dans sa solution Big Data HD Insight.

HUE

HUE est une interface utilisateur graphique open source d’administration des composants Hadoop permettant entre autre de visualiser des données sous Hadoop. Il est inclus dans les distributions Cloudera et Hortonworks.

Impala

Impala est un composant de la distribution Hadoop de Cloudera qui facilite l’accès aux données Hadoop via des requêtes de type SQL. A la différence de Hive, Impala est plus riche en possibilité de requête, travaille en mémoire et s’appuie sur Yarn pour la gestion des ressources. Impala s’appuie sur les métadonnées d’Hive.

Jdbc

JDBC (Java DataBase Connectivity) est une API fournie par Oracle avec Java. Elle permet de se connecter à des bases de données, notamment Big Data, via des appels standard qui sont traduits dans l’API spécifique de la base de données cible via un driver.

Journal Node

Ce composant Hadoop correspond aux services de gestion des fichiers de metadata associés aux NameNodes à savoir edits_xxx et fsimage_xxx. Les différentes modifications sont enregistrées dans un journal appelé Edits_xxx. De plus, la carte des différents blocs et de leur répartition est enregistrée dans un fichier nommé FsImage_xxx. Le journal EditLog et FsImage sont présents sur la machine NameNode mais peuvent être sauvegardés ailleurs pour récupérer le système si le NameNode s’arrête...

JSON

Json, pour JavaScript Object Notation, est un format standardisé pour décrire des clés-valeurs. C’est le format généralement utilisé par les langages pour passer des données aux traitements et passer des résultats aux programmes appelants.

Kafka

Kafka est un outil open source Java issu des travaux de LinkedIn de gestion distribuée de messages hautement performant et tolérant aux pannes en mode publication/subscrition (comme les broker EAI) permettant l’ingestion de données massives et rapides dans Hadoop.

Lambda architecture

L’architecture lambda est une architecture de traitement de gros volume de données à la fois en batch (type Hadoop), en micro-batch et en temps quasi-réel (type Storm ou Spark).

Lucene

Lucene est un moteur de recherche open source qui a servi de souche à Solr et Elasticsearch notamment.

Mahout

Mahout est un ensemble d’algorithmes open source de "machine learning" (auto-apprentissage) de l’écosystème Hadoop. Ils permettent la réalisation de moteurs de recommandations tenant compte des préférences des autres utilisateurs et évoluant dans le temps en fonction de l’historique.

MapReduce

MapReduce est un modèle de traitement parallèle et distribué. En simplifiant, un algorithme est découpé en blocs qui sont répartis dans des nœuds (map) puis les résultats des différents nœuds appelés sont agrégés (reduce) par le nœud appelant. L’intérêt est double : les traitements sont poussés vers les données et non l’inverse, ce qui soulage le goulot d’étranglement que constitue généralement le réseau. De plus, la vitesse de calcul croit de manière linéaire avec l’augmentation du nombre de nœuds, ce qui rend l’architecture totalement évolutive. L’inconvénient de MapReduce est la complexité à concevoir les algorithmes sous cette forme, complexité que se sont attachés à masquer des générateurs de MapReduce comme Pig ou Hive.

MapR

MapR est l’une des principales distributions commerciales de Hadoop. L’éditeur propose une version communautaire ainsi que des outils qui lui sont spécifiques. A noter que la distribution MapR embarque son propre système de gestion de fichiers (MapR FS), différent d’HDFS.

Métadonnée

Les métadonnées (metadata) sont des données concernant les données, comme par exemple l’origine ou la date de création.

MongoDB

MongoDB est une base de données orientée documents.

NameNode

Le NameNode est un service central (généralement appelé aussi maître) qui s’occupe de gérer l’état du système de fichiers. Il maintient l’arborescence du système de fichiers et les métadonnées de l’ensemble des fichiers et répertoires d’un système Hadoop. Le NameNode a une connaissance des DataNodes dans lesquels les blocs sont stockés. Ainsi, quand un client sollicite Hadoop pour récupérer un fichier, c’est via le NameNode que l’information est extraite. Ce NameNode va indiquer au client quels sont les DataNodes qui contiennent les blocs. Il ne reste plus au client qu’à récupérer les blocs souhaités.

Neo4j

Neo4j est l’une des principales bases de données orientée graphe.

NoSQL

NoSQL signifie "pas seulement SQL" (Not Only SQL) et non pas "pas de SQL" (No SQL). C’est une mouvance dont l’objectif est de chercher des alternatives aux SGBD relationnels structurés, quitte à sacrifier la cohérence. Elle se traduit par différentes solutions de persistance des données sans schéma imposé.

Nutch

Nutch est un moteur de recherche, dérivé de Lucene et disponible en open source. Il est adapté aux traitements des pages web et plus limité que Solr et Elasticsearch.

Oozie

Oozie est un gestionnaire de tâches Hadoop qui permet d’ordonnancer les tâches MapReduce et autre Pig en respectant les paramètres de dépendance entre les tâches.

Open Data

Ce terme regroupe l’ensemble des données disponibles, moyennant le respect des licences, sans redevances. C’est le pendant des logiciels open source dans le domaine des données. Dans la sphère publique, Open Data est un mouvement général des gouvernements et des administrations à mettre à disposition du public les données dont elles disposent. En France, le portail data.gouv.fr centralise et catégorise les Open Data.

Pig

Pig Latin est un langage procédural de script de haut niveau permettant de décrire des traitements qui sont ensuite générés sous forme distribuée en MapReduce. Il a été initialement conçu par Yahoo pour être simple et masquer la complexité de MapReduce.

Programmatique

Programmatique se dit des ordres passés sur des adex via des DSP ou des SSP par des programmes sans intervention humaine. Les achats programmatiques ont cru de plus de 150% en 2014.

Pseudonymisation

La pseudonymisation est une anonymisation réversible. Les données personnelles sont transcodées de telle sorte que l’individu ne puisse pas être identifié mais le transcodage est réversible ce qui permet de retrouver l’identité.

Qlik

Qlik est un éditeur d’origine Suèdoise, pionnier de la data visualisation avec son outil Qlikview et plus récemment Qliksense. Qlikview innovait, par rapport aux outils de Business Intelligence, par sa simplicité d’utilisation et par l’autonomie qu’il conférait aux utilisateurs métiers pour explorer les données.

R

R est une suite d’outils statistiques open source. Certains éditeurs ont décliné R en version commerciale pour supporter la génération de code MapReduce et donc les traitements distribués.

Real Time Bidding (RTB)

Le RTB est le passage d’ordre automatique et en temps réel sur les Adex.

Redis

Redis est une base de données open source clé-valeur.

REST / Restful

L’Architecture REST est une manière de dialoguer entre un client et un serveur souvent Web qui a pour objectif principal de rendre autonome ces deux entités ; cela se traduit notamment pour le client à fournir au serveur tous les éléments sans que ce dernier n’est à mémoriser ce qui s’est passé lors du dernier échange. Un système d’enchainement de pages web qui respecte cela est appelé RESTFul (Les interfaces RESTFUL permettent d’assurer une persistance par le client des données pendant des échanges entre le client et le serveur en particulier, par exemple entre l’affichage de deux pages d’un site web).

Scala

Langage (et même métalangage) de développement à la fois orienté Objet fonctionnel permettant de gérer du parallélisme au niveau du code et pouvant être compilé en Java.

Schemaless

Schemaless (littéralement "sans schéma") se dit d’une base de données qui n’a pas besoin d’une définition préalable d’une structure pour fonctionner. L’avantage des bases sans schémas est une grande souplesse puisque le contenu peut évoluer très simplement. A contrario, elles imposent que les traitements sachent comment les données sont stockées ce qui les alourdit d’autant (cas des bases NoSQL).

Second party Data

Second Party désigne les données qui sont créées par une entreprise partenaires dans le cadre de ses activités comme les transactions ou les traces des visites sur ses sites internet et qui sont échangées ou mises à disposition. Elles se distinguent des données first et third party.

Self Service BI

La Business Intelligence en self-service consiste à donner aux utilisateurs des moyens pour accéder aux données et élaborer par eux-mêmes les relations plutôt que de passer par une couche sémantique comme le font les outils de business intellicence historique comme SAP BO ou Microstrategy.

Sharding

Sharding (littéralement "éclater") consiste dans le monde des bases de données distribuées à découper une table en tranches de lignes et à répartir ces tranches (les "shards") sur des serveurs séparés (les datanodes dans le contexte Hadoop par exemple). On parle de partitions horizontales par opposition aux partitions verticales que proposent les SGBD relationnels traditionnels.

Shared-nothing

Shareed-nothing ("qui ne partage rien" littéralement) fait référence aux systèmes distribués dont chaque nœud dispose de sa capacité de traitement et de stockage. Le shared-nothing et la distribution sont les piliers de la tolérance et de la disponibilité.

Solr

Solr, dérivé de Lucene, est un moteur de recherche d’informations sur des documents au sens large à la mode Google ; il est l’équivalent d’Elasticsearch (plus ancien aussi) pour la distribution Cloudera.

Spark

Spark est un environnement de développement open source qui permet de traiter à la fois du batch et du temps réel. Il est intégré dans différente distribution (Cloudera, Hortonworks) de Hadoop. En raccourci, c’est un peu l’équivalent du MapReduce mais en mémoire. Il arrive avec des frameworks complémentaires (Machine Learning, SQL, Streaming) ; le framework est basé sur le langage Scala.

Splunk

Splunk est un outil de collecte et d’analyse de streams de données générées par des machines tels que des équipements réseaux et des fichiers de logs.

Sqoop

Issu de la fondation Apache, Sqoop est un outil open source permettant à la fois d’importer des données depuis un SGBD pour exécuter des traitements en exploitant le cluster Hadoop et inversement, d’exporter des résultats d’un traitement vers une base de données tierce, avec des performances élevées pour ces opérations d’import ou d’export massifs.

SSP

SSP est l’acronyme de Sell Side Platform ou Supply Side Platform. La SSP est un outil destiné aux éditeurs de sites pour gérer des stocks et des ventes d’espaces publicitaires sur plusieurs Adex (bourses d’espaces publicitaires).

Storm

Storm est un environnement de développement ayant pour objet de gérer des événements temps réel à prendre en compte en parallèle (Streams) distribué adapté à la collecte de gros volumes de données. Il est notamment intégré dans la distribution Hortonworks.

Streams

Littralement "courants", les streams désigne usuellement les flux de données continus tels que les flux twitter ou les messages envoyés par des équipements réseaux. Par extension on parlera de données régulières ("temps réel") arrivant en parallèle à traiter dans une fenêtre de temps.

Tableau Software

Tableau est un éditeur, dont les fondateurs, professeurs à Stanford, ont décliné commercialement leurs recherches sur la data visualisation.

Tag

Les tags, sur une page, un site ou une application mobile, sont des balises posées à des endroits stratégiques qui vont déclencher la mémorisation d’une trace (par exemple, un cookie). Ces traces vont servir à alimenter la DMP ou les outils de web analytics.

Tag Management Systems

Les TMS sont des outils permettant de gérer les tags et leur positionnement.

Third Party Data

Third Party désigne les données d’enrichissements ou de profils, anonymes ou identifiés, qui sont commecialisées par des fournisseurs tiers comme Axciom ou 101Data. Elles se distinguent des données first et second party.

Tolérance

Tolérance au partitionnement (Partition Tolerance en anglais) : aucune panne moins importante qu’une coupure totale du réseau ne doit empêcher le système de répondre correctement (ou encore : en cas de morcellement en sous-réseaux, chacun doit pouvoir fonctionner de manière autonome).

Trading Desk

Le trading desk, rôle généralement dévolue aux agences médias, a la responsabilité d’acheter des espaces publicitaires. A ce titre, il est opérateur d’outils DSP et DMP.

Vertica

Vertica est une société, rachetée par HP, pour devenir le cœur de l’offre appliance du constructeur.

Visualisation

La Data Visualisation est un segment du marché de la Business Intelligence initié par Qlik et Tableau Software. Le concept était de proposer des modes de visualisation innovants permettant de détecter visuellement des phénomènes en explorant des jeux de données. Plus récemment, ces outils ont développé des fonctions de découverte de jointures entre tables et l’interrogation en langage naturel. Les ténors du marché de la BI, SAP, Microsoft et autres SAS ou IBM, ont tous complété leurs offres BI de fonctions ou de modules de dataviz.

Web analytics

Le web analytics est un segment du marché des logiciels qui couvre les fonctionnalités de taggage, de test et de mesure de l’efficacité des sites. Certains des outils reposent sur des technologies Big Data et les données de navigation qu’ils produisent sont parfois utilisées pour suivre les parcours digitaux des visiteurs et les rattacher à des clients identifiés quand c’est possible.

YARN

YARN (Yet Another Resource Negotiator, littéralement "encore un négociateur de ressources") est en quelque sorte un distributeur de capacité de traitements qui dialogue avec les ressources (nœuds), pour déterminer auxquels attribuer le besoin d’un programme ou d’un bloc de traitement.

Zookeeper

Zookeeeper est un projet open source pour ordonnancer des systèmes distribués de type MapReduce et Hadoop.

 

Soft Computing. Tous droits réservés. 55, quai de Grenelle | 75015 PARIS

Blog de Soft ComputingSoft Computing sur TwitterSoft Computing sur FacebookSoft Computing sur LinkedInSoft Computing sur SlideShare