Sélectionner une page

« Monsieur le Chief Data Officer, il faut cruncher les dark data du datalake pour en tirer une meilleure granularité !» Cette phrase ne vous dit rien ? Avec la révolution numérique, on a vu de nombreux nouveaux concepts informatiques apparaître, qu’il a bien fallu finir par nommer.

Or, il n’est pas toujours facile de s’y retrouver entre les termes anglophones, les nouveaux mots qui apparaissent ou encore ceux dont le sens n’est pas toujours bien exploité dans le contexte. Voici un lexique des termes autour de la donnée permettant de s’y retrouver un peu mieux dans ce jargon ultra-spécialisé et de mieux saisir les enjeux du traitement des informations.

Définitions

3V

Vitesse (vélocité), valeur et variété, les trois critères qui définissent une plateforme Big Data.

Algorithme

Le processus qui permet d’analyser la data, souvent combiné aux statistiques et à l’intelligence artificielle.

Analyse descriptive

Il s’agit de décrire le contenu d’un ensemble de données, comme on va séparer les différents postes de dépenses sur un relevé de compte.

Analyse prédictive

Si une constante analysée est similaire sur 5 années de suite, on estime qu’il y a de bonnes chances que cette constante se prolonge sur l’année suivante : il ne s’agit pas de prédire l’avenir mais de prévoir les probabilités d’apparition de différentes situations.

Anonymisation

Ce processus décrit l’action d’un cryptage irréversible des données qui va détruire totalement les informations permettant d’identifier un individu au moyen de ces données.

Arbre de décision

Un algorithme qui aide la résolution de problèmes, sous la forme d’un arbre (d’où son nom) : chaque « branche » représente un choix, chaque « feuille » une solution potentielle.

Business Intelligence

Ensemble de technologies qui permet aux entreprises d’analyser leurs données afin de prendre la meilleure décision possible.

Cartographie des données

Processus qui permet de recenser et de visualiser les points d’entrée et de traitement de la donnée.

Clé Valeur

Une base de données clé-valeur stocke les identifiants et leur contenu. Totalement indexée, elle est plus rapide et dispose d’une souplesse relative (sans schéma).

Cruncher les données

Ce terme désigne l’action de trier, modéliser et analyser des données au moyen d’algorithmes afin de les transformer en informations lisibles et pertinentes.

Dark Data

On parle de Dark Data pour designer des données collectées par une entreprise, mais qui ne sont pas exploitées, laissées de côté car jugées non essentielles. Le secteur de l’extraction de dark data commence à intéresser le monde du business, mais pose aussi des problèmes de sécurité : en effet, conserver longtemps des dark data rend une attaque sur celle-ci difficilement détectable.

Data Center

Lieu physique (pièce où se trouvent des serveurs) où sont stockées les données de l’entreprise.

Data Cleansing

C’est un processus consistant à nettoyer les données, c’est à dire de supprimer des données erronées, mal saisies, de corriger des doublons, des incohérences, etc.

Data Governance

Ensemble des actions et des organisations au sein d’une entreprise qui encadrent la collecte de données.

Data House

Entrepôt de stockage informatique de la donnée brute, telle qu’elle a été enregistrée dans sa base.

Data Lake

Il s’agit d’une méthode de stockage des données par les entreprises qui regroupe l’ensemble des informations, qu’elles soient brutes ou transformées, des images, de la vidéo, du texte, etc.

Data Lineage

Description des flux de données offrant une représentation complète, détaillée (schéma), de la production d’indicateurs, d’états ou encore de fichiers d’export.

Data Warehouse

Il s’agit de l’emplacement informatique où sont stockées des données conventionnelles, structurées et formatées issues du Data House. Note : il est possible de se passer de Data House en reportant son rôle sur le Data Warehouse.

Dictionnaire de données

Partie d’un processus informatique permettant la génération d’une base de données relationnelle. Le dictionnaire de données regroupe les métadonnées et les données de référence.

Données anonymisées

Une partie des informations relatives à la donnée est détruite, de manière à empêcher l’identification directe ou indirecte d’une personne ou entité.

Données directement identifiantes

Ce sont les données « personnelles », c’est-à-dire celles qui permettent d’identifier une personne physique, par exemple au moyen de son nom ou de son prénom. Cependant, la mise en place du RGPD a élargi cette définition : entre autres, les cookies sont désormais considérés comme des données personnelles.

Données first/second/third party

First party : il s’agit des données captées directement dans l’environnement d’une marque, par exemple son site web, ses applications… elles servent à mesurer l’audience d’un site, à améliorer l’expérience utilisateur, etc.
Les données « second party » proviennent de partenariats entre des marques qui visent la même cible par exemple et se partagent donc leurs données. En mettant ces informations en commun, elles peuvent leur ajouter de la valeur : par exemple, une marque de produits alimentaires peut croiser ses données avec celles d’un blog culinaire !
Les données « third party » proviennent d’un prestataire externe ou « tiers » comme une régie publicitaire (Facebook Ads par exemple) ou un data broker qui va collecter, agréger et traiter ces informations en les segmentant par âge, habitudes de consommation, centres d’intérêt, etc.

Données pseudonymisées

Les données sont associées à un pseudonyme, pas à un identifiant. Cependant, faire le lien entre le pseudonyme et l’identifiant reste possible (contrairement à la donnée anonymisée).

Droit de portabilité des données

Garanti par le RGPD, il s’agit de la possibilité pour un utilisateur de récupérer ses informations personnelles collectées par un site web, mais également de les faire transférer d’un organisme à un autre (comme le font l’INSEE et la CCI).

Granularité

Ce critère permet d’évaluer la valeur d’une donnée : on parle aussi du degré de précision d’une donnée.

IOT

L’internet des objets, c’est la connexion embarquée sur un objet du quotidian (véhicule, montre, frigo, etc.) qui crée un véritable réseau entre eux.

Machine learning

Il s’agit du développement automatique d’algorithmes (intelligence artificielle) qui se “nourrissent” de données pour affiner leur analyse et leur réponse.

Metadata management

La gestion des métadonnées a pour rôle d’administrer les informations des données afin de les comprendre, en leur donnant un contexte.

Métadonnées

Synthèse des informations élémentaires sur les données facilitant la recherche et la manipulation d’instances.

Modèle de données

Illustre une structure logique pour une base de données (par exemple, les relations et contraintes).

Open Data

Désigne des données « libres » ou « ouvertes » à accès et usage sans restriction (juridique, technique ou financière) par les utilisateurs. Les associations, un service public ou une entreprise peuvent générer ce type de données.

Privacy by Design

Ce concept propose de prendre en compte la protection des données personnelles en amont d’un projet, permettant aux entreprises d’anticiper les conséquences d’une faille de sécurité mettant en danger les données privées qu’elle stocke ou utilise.

Qualité des données

En matière de données, la fiabilité est un critère essential pour éviter des erreurs qui peuvent coûter cher.

RGPD

Le règlement général sur la protection des données redonne le contrôle de leurs données personnelles aux citoyens européens depuis le 25/05/2018. Il impose aux entreprises des restrictions dans la collecte et le traitement des données de leurs utilisateurs et de leurs clients.

Rôles autour de la donnée

Chief Data Officer

Il s’agit du directeur des données, en charge de toute la stratégie data d’une entreprise et du contrôle global de la gouvernance des données. C’est à lui d’optimiser la collecte, le stockage, la fiabilité et la qualité des données et des métadonnées.

Data Architect

C’est à lui de construire les systèmes de gestion, de prédiction et d’analyse des données. Il optimise les objectifs stratégiques en définissant des standards de qualité, de stockage, etc.

Data Analyst

Il analyse la donnée et la transforme en information exploitable au moyen d’algorithmes. Il doit également créer et maintenir les bases de données de l’entreprise.

Data Broker

Le courtier en données négocie des données comme d’autres négocient des métaux rares ou des tonnes de pommes. Il achète donc, agrège, affine et revend des informations. On peut citer Experian, Acxiom, Datalogix (Oracle), etc.

Data Owner

Il est responsable de la collecte, du stockage et de la protection des données de l’entreprise, et de la mise en place d’un référentiel pour les contextualiser. C’est à lui de gérer la cartographie de ces données, le contrôle d’accès et la coordination de leur protection.

Data Protection Officer

Comme son nom l’indique, il est responsable de la protection des données et du respect de la conformité (du RGPD) ainsi que des obligations juridiques relatives à la donnée.

Data Quality Manager

Il est responsable de la qualité de la donnée, de sa pertinence et de l’utilité qu’elle représente.

Data Scientist

Il a pour rôle d’extraire des réponses issues de la masse de données. Il produit des algorithmes qui permettent de catégoriser les données mais également d’anticiper un comportement.

Data Steward

Coordinateur de données et administrateur du Data Lake, en charge de la gestion et de l’organisation des données.

Responsable BI (business intelligence)

Il propose des outils d’aide à la décision et accélère la transformation digitale.