Que recherchez-vous ?

Dossier : le Big Data

Big Data - Transformation numérique 21 avril 2021
Publié par : Allan Gousset

Le Big Data est un ensemble polymorphe de données complexes, provenant de sources nouvelles et différentes. A l’échelle du téra voire du pétaoctet, il est si volumineux qu’un logiciel classique de traitement des données, tout comme les ETL (Extract, Transform, Load), sont incapables de le gérer. Quelles sont les utilisations et les applications du Big Data ? Comment optimiser la capture, la recherche, le partage, le stockage, l’analyse et la présentation de ces données au moyen d’une approche transdisciplinaire ? Définitions et mises en perspectives.

Dossier : le Big Data

Le Big Data en 5 V

  • Volume : le Big Data est constitué de très gros volumes de données, non structurées et de faible densité. Le flux de données peut être de valeur inconnue, comme des données Twitter, des clics sur une page internet, une application mobile ou encore un appareil équipé d’un capteur (thermomètre, caméra, etc.). Les chiffres sont vertigineux et peuvent atteindre des dizaines de téraoctets, voire des centaines de pétaoctets.
  • Vitesse : les données du Big Data se caractérisent par une haute vitesse. Elles sont transmises directement en mémoire plutôt qu’écrites sur un disque. Comment ? Grâce aux smart objects (produits équipés de l’internet des objets) interagissant entre eux et nécessitant des actions et des évaluations en temps réel, ou presque. La haute vélocité des informations se matérialise aussi par un comportement « viral » sur les réseaux sociaux.
  • Variété : le Big Data est composé de très nombreux types de données, structurées (20%) et non-structurées (80%), rassemblées au sein d’une base de données relationnelle. On y trouve du texte, de l’audio et de la vidéo qu’il est possible de comparer, analyser, reconnaître, classer, etc. Cependant, la prise en charge des métadonnées requiert un prétraitement supplémentaire.
  • Valeur : on ne parle pas tant ici de la valeur intrinsèque des données que de celle dégagée par l’analyse permanente qu’en font les entreprises. Dans quels buts ? Celui d’optimiser leur performance, mais aussi de développer de nouvelles offres. L’exploitation pertinente du Big Data permet en effet d’en tirer un avantage concurrentiel indéniable.
  • Véracité : la fiabilité et le niveau de certitude des données récoltées sont tout aussi importants que leur valeur. Si l’un impacte naturellement l’autre, le contenu récolté peut parfois être difficile à authentifier (entre les hashtags, le langage familier, les abréviations, les fautes, etc.). Au moyen d’une récolte soigneusement cadrée et d’une analyse approfondie par des spécialistes, il est alors possible de s’appuyer sur une base de données saine et solide, pour en tirer des tendances fiables.

Le Big Data, d’hier à aujourd’hui

Le concept d’ensemble de données n’est pas nouveau. Il remonte aux années 60-70, lorsque les premiers data centers ont fait leur apparition, conjointement au développement de la base de données relationnelle.

Avec l’essor des réseaux sociaux en 2005, comme YouTube et Facebook, on assiste à une augmentation exponentielle des données générées par les utilisateurs. Des infrastructures comme Hadoop ont alors été conçues pour stocker et analyser ces ensembles de données trop volumineux. Parallèlement, le développement du NoSQL a permis d’accompagner la croissance du Big Data en réduisant les coûts de stockage. Le pattern Spark est venu ensuite remplacer progressivement MapReduce, trop lent malgré sa capacité de stockage de données. Son avantage ? Proposer des traitements quasi instantanés sur de gros volumes de données écrites sur disque ou stockées dans la RAM. Pratique pour l’analyse en temps réel.

Le stockage, au cœur de la problématique de la donnée

Alors que de plus en plus d’équipements et de terminaux sont reliés à internet, la collecte de données a littéralement explosé. Aujourd’hui, on en collecte sur les utilisateurs, leurs habitudes de navigation ou de consommation, ou encore la performance d’un produit en particulier. La grande différence dans le traitement de ces données ? Ce ne sont plus seulement des humains qui les manipulent, mais également des programmes. Par ailleurs, l’utilisation d’algorithmes d’apprentissage automatique a permis de traiter une masse encore plus importante de données. Ceci a de fait favorisé l’expansion du Big Data, encore plus avec l’apparition du Cloud Computing et son évolutivité. Tester un sous-ensemble de données est ainsi devenu plus facile, grâce à l’utilisation de clusters dédiés.

Avec un volume d’informations plus important, il est possible d’obtenir des réponses plus complètes. Cela signifie également que les données deviennent plus fiables, pourvu que la méthode de récolte et d’interprétation soit précise. L’approche est donc devenue radicalement différente de celle dédiée à la résolution de problèmes.

Hadoop, toujours d’actualité ?

Malgré un volume déjà conséquent, il semble que l’afflux massif de nouvelles données fasse doubler le poids du Big Data tous les 2 ans. Autant dire que le stockage et ses problématiques de sécurité continuent d’être un point crucial dans le domaine de la gestion et de l’exploitation des données. Conséquence ? Les entreprises créent désormais leur propre Data Lake ou Data Warehouse.

Non seulement le volume explose de manière exponentielle (on parle de mégadonnées), mais en plus, la technologie qui l’accompagne change rapidement. Si on utilisait couramment Apache Hadoop (ses composants de traitement et de calcul restant très efficaces), c’est Apache Spark et Presto qui se répandent actuellement. L’idéal restant une combinaison des deux infrastructures. 

Aujourd’hui, des solutions cloud très modulables et peu onéreuses sont proposées aux entreprises, en combinaison ou en remplacement du stockage sur site. Avec l’essor des bases de données Open source (Confluent, Redis…), les entreprises ont désormais accès à des solutions de gestion abordables. Celles-ci sont supportées par la plateforme d’orchestration de container Kubernetes, elle aussi en Open source.

Mais le stockage seul ne suffit pas. Une donnée brute est inexploitable, quelles que soient son origine ou sa nature. Il est donc nécessaire de les organiser en amont, pour permettre une analyse pertinente et fiable. Ce qui demande un important et très minutieux travail préparatoire. Il faut savoir que 50 à 80% du temps de travail d’un spécialiste de la donnée consiste à trier, organiser et préparer les données, avant que celles-ci ne soient exploitables.

Quelles applications pour le Big Data

Il existe de très nombreuses utilisations du Big Data. En particulier dans l’activité commerciale, l’expérience client, le développement de produits ou encore l’analyse prédictive. Cependant, il est impossible pour une entreprise de suivre la vitesse de génération des données. Et la variété des sources les rend difficiles à migrer et à exploiter efficacement. Alors, au lieu de chercher à centraliser les données en une même localisation, l’idée est désormais de rapprocher les applications des sources de données. Ceci pouvant engendrer de nouveaux problèmes, notamment au niveau du rapatriement des informations nécessaires au travail sur la donnée. La science des data analytics est là pour permettre de vérifier un modèle, une théorie ou de réfuter une hypothèse en examinant la donnée brute afin d’en tirer des conclusions fiables.

Prédire les comportements

En classant des attributs de produits ou de services, les sociétés peuvent créer des modèles prédictifs pour anticiper la demande client. Le Big Data leur permet en effet de modéliser la relation entre des attributs prédéterminés et le succès commercial relatif à une offre. Il est aussi possible d’utiliser les données issues de groupes cibles, de réseaux sociaux, de marchés test et même d’avant-premières. Cela permet de lancer de nouveaux produits et nouvelles lignes, tout en anticipant leur succès. L’analyse de données vient ainsi soutenir la prise de décisions, et permet d’évaluer la production sur une base objective, rationnelle et fiable.

De la même manière, l’exploitation du Big Data permet de faire de la maintenance prédictive. Par exemple dans la défaillance mécanique, en s’appuyant sur les logs, les données de capteurs, les messages d’erreurs… et en les croisant avec des données structurées comme l’année, la marque et le modèle d’un équipement. Ces données deviennent alors des indicateurs de problèmes potentiels, permettant de prévenir leur apparition avant même que le problème ne se pose. Les entreprises peuvent alors déployer leur maintenance de manière plus rationnelle et optimiser la gestion du renouvellement des équipements.

Quelles valeurs ajoutées ?

Dans le domaine de l’expérience client, l’analyse des données permet : de trier des informations provenant de réseaux sociaux, de visites sur une page web, de logs et bien d’autres sources variées venant enrichir la valeur fournie. Il devient possible de corriger un point de friction, mais surtout de proposer des offres personnalisées, et de travailler sur la rétention de manière proactive. 

Le Big Data accompagne aussi l’innovation, en offrant la possibilité d’étudier les interdépendances entre les utilisateurs, les entités administratives, les processus etc. Exploiter ces informations permet de rationaliser la prise de décision dans les secteurs de la finance, ou encore de la planification, afin d’en tirer des tendances fiables.

Quant à la sécurité, elle n’est pas en reste. Il est possible d’utiliser les data analytics pour déterminer des modèles de comportement (patterns), pour ensuite relever tout ce qui s’en écarte. Cela permet par exemple de mettre en lumière de potentielles fraudes à la conformité. Agréger des volumes massifs d’informations peut aussi se faire au moyen du machine learning par exemple, en automatisant le reporting pour une performance accrue.

Le Big Data au service de l’humain

On trouve également des applications des data analytics en médecine, génie biologique ou GBM. Le Big Data offre en effet de nouvelles possibilités de diagnostic grâce aux données issues :

  • des appareils d’imagerie, comme la scintigraphie, l’échographie, l’IRM, etc.
  • des automates d’analyses biologiques et de signaux, tels que l’électrocardiogramme, les appareils de traitement des pathologies (laser, dialyse…) etc. 

Des ordinateurs spécialisés traitent en permanence ces informations au service du patient. Ces nouveaux moyens d’investigation, d’acquisition et de stockage de données permettent désormais : de comparer, de diagnostiquer, d’analyser la prise en charge, de projeter des modèles, comme pour une étude épidémiologique par exemple.

Vers une rationalisation de la donnée ?

« Trop d’info tue l’info », c’est le problème majeur qui se pose quand on manipule des masses immenses de données issues du Big Data. La quantité extraordinaire d’informations devient un obstacle du fait de leur poids et de leur croissance exponentielle. Un autre problème se pose par rapport au niveau de certitude de la donnée : quid des informations « incertaines », par exemple lorsque l’on ignore qui a cliqué sur un bouton ou visité telle page ? Trop de volume, une croissance galopante et des informations peu crédibles peuvent conduire à des erreurs d’interprétation. Et surtout amener à une exploitation trop complexe et une perte de temps globale.

Comment résoudre une partie du problème ? Par les algorithmes statistiques et le machine learning, en particulier dans le domaine prédictif. Ils vont permettre de concevoir de la valeur, afin d’affiner l’analyse et de traiter des données encore inexploitées. En effet, on remarque que les entreprises ne traitent que 20% de leurs données actuellement (on parle de Dark Data pour désigner ces informations inexploitées). Pour manipuler, trier et classer de telles quantités d’informations, l’association intelligente d’une IA bien entraînée et de la statistique (pourvu qu’elles soient utilisées de manière vertueuse) va permettre de mener les projets avec plus de finesse. L’expertise du data analyst reste cependant indispensable à tous les niveaux. L’ordinateur n’est pas prêt de répondre tout seul aux questions que se posent les entreprises sur leur avenir ou le succès d’un nouveau produit. Et la réponse est bien là, quelque part dans une masse de données colossale. Encore faut-il savoir aller la chercher, l’extraire au moyen des bonnes questions et interpréter correctement les résultats.


Pour conclure, il est primordial de se demander si une donnée est bien utile avant de la collecter. A quoi bon générer des quantités indénombrables de données si celles-ci ne sont pas pertinentes ou de mauvaise qualité ? D’ailleurs, il est tout autant crucial pour l’entreprise de vérifier ses capacités d’analyse avant de chercher à capter des données. Le mot d’ordre ? Récolter uniquement ce qui est nécessaire, utile et exploitable. De cette façon, le data analyst obtiendra des données d’une qualité suffisante, et surtout, sera capable de les exploiter dans un but clair et précis. Car si le travail sur la donnée lui donne de la valeur, sans récolte pertinente de la donnée brute, l’analyse est impossible.

À propos de l’auteur·e

Allan Gousset

Expert en Gestion des données

Proposez un sujet autour des enjeux des systèmes d’information.

Devenez membre de notre communauté d’experts inspirants.