Sélectionner une page

Le Big Data, c’est un ensemble polymorphe de données complexes provenant de sources nouvelles et différentes les unes des autres, si volumineux qu’un logiciel classique de traitement des données est incapable de le gérer. Les ETL (extract, transform, load) ne sont pas toujours capables de traiter ce volume, à l’échelle du téra voire du pétaoctet ! Il permet la capture, la recherche, le partage, le stockage, l’analyse et la présentation de données au moyen d’une approche transdisciplinaire.

Définition du Big Data

On caractérise le Big Data par les trois V de Gartner, auxquels se sont récemment ajoutés deux autres V.

  • Volume : la quantité, ça compte ! Le Big Data est constitué de très gros volumes de données non structurées à faible densité. Le flux de données peut être de valeur inconnue, comme des données Twitter, des clics sur une page Internet, une app mobile ou encore un appareil équipé d’un capteur (thermomètre, caméra, etc.). Les chiffres sont vertigineux et peuvent atteindre des dizaines de téraoctets, voire des centaines de pétaoctets !
  • Vitesse : les données du Big Data se caractérisent par une haute vitesse. Elles sont transmises directement en mémoire plutôt qu’écrites sur un disque, car les smart objects (produits équipés de l’internet des objets) interagissent en temps réel ou presque, nécessitant aussi des actions et des évaluations en temps réel. Mais la haute vélocité des informations se matérialise aussi par un comportement « viral » sur les réseaux sociaux.
  • Variété : le Big Data est composé de très nombreux types de données, structurées (20%) et non-structurées (80% !) rassemblés au sein d’une base de données relationnelle. On y trouve du texte, de l’audio et de la vidéo qu’il est possible de comparer, analyser, reconnaître, classer, etc. cependant, la prise en charge des métadonnées requiert un prétraitement supplémentaire.
  • Valeur : on ne parle pas tant ici de la valeur intrinsèque des données que de celle dégagée par l’analyse permanente qu’en font les entreprises, dans le but d’optimiser leur performance et de développer de nouvelles offres. L’exploitation pertinente du Big Data permet d’en tirer un avantage concurrentiel indéniable.
  • Véracité : la fiabilité et le niveau de certitude des données récolées est tout aussi important que leur valeur, et l’un impacte naturellement l’autre… sachant que le contenu récolté peut parfois être difficile à authentifier (entre les hashtags, le langage familier, les abréviations, les fautes, etc.). Au moyen d’une récolte soigneusement cadrée et d’une analyse approfondie par des spécialistes, il est alors possible de s’appuyer sur une base de données saine et solide pour en tirer des tendances fiables.

Historique du Big Data

Le concept d’ensemble de données n’est pas nouveau et remonte même aux années 60-70, lorsque les premiers datacenters ont fait leur apparition conjointement au développement de la base de données relationnelle.

Avec l’essor des réseaux sociaux en 2005 comme YouTube et Facebook, on assiste à une augmentation exponentielle des données générées par les utilisateurs. Des infrastructures comme Hadoop ont alors été conçues pour stocker et analyser ces ensembles de données trop volumineux, conjointement au développement du NoSQL, ce qui a permis d’accompagner la croissance du Big Data en réduisant les coûts de stockage, l’équivalent d’un coup d’accélérateur par rapport aux années 70. Le pattern Spark vient ensuite remplacer progressivement MapReduce, trop lent malgré sa capacité de stockage de données : il a l’avantage de proposer des traitement quasi-instantanés sur de gros volumes (pratique pour l’analyse en temps réel) de données écrites sur disque ou stockées dans la RAM.

analyse de données

Le stockage, au cœur de la problématique de la donnée

Aujourd’hui, le volume de données a littéralement explosé, mais la grande différence dans le traitement des données réside dans le fait que ce ne sont plus seulement des humains qui les manipulent, mais également des programmes. De plus en plus d’équipements et de terminaux sont reliés à internet (l’internet des objets), collectant toujours plus de données sur les utilisateurs, leurs habitudes de navigation ou de consommation, ou encore la performance d’un produit en particulier. Enfin, l’utilisation d’algorithmes d’apprentissage automatique a permis de traiter une masse encore plus importante de données, ce qui a de fait favorisé l’expansion du Big Data, encore plus avec l’apparition du Cloud Computing et son évolutivité. Tester un sous-ensemble de données est en effet devenu plus facile grâce à l’utilisation de clusters dédiés.

Avec un volume d’information plus important, il est possible d’obtenir des réponses plus complètes, signifiant également que les données deviennent plus fiables pourvu que la méthode de récolte et d’interprétation soit précise : cela permet une approche radicalement différente de la résolution de problèmes.

Hadoop, toujours d’actualité ?

Malgré un volume déjà conséquent, il semble que l’afflux massif de nouvelles données fasse doubler le poids du Big Data tous les deux ans. Autant dire que le stockage et ses problématiques de sécurité continuent d’être un point crucial dans le domaine de la gestion et de l’exploitation des données, et les entreprises créent désormais leur propre Data Lake ou Data Warehouse.

Non seulement le volume explose de manière exponentielle (on parle de mégadonnées), mais en plus, la technologie qui l’accompagne change à vitesse grand V : si on utilisait couramment Apache Hadoop il y a quelques années, c’est Apache Spark et Presto qui se répandent actuellement,  même si l’idéal reste une combinaison des deux infrastructures. Les composants Hadoop de traitement et de calcul restent très efficaces.

Aujourd’hui, les solutions cloud très modulables et peu onéreuses viennent à la rescousse des entreprises, en combinaison avec le stockage sur site ou en remplacement de celui-ci. Avec l’essor des bases de données Opensource (Confluent, Redis…), les entreprises commencent à avoir accès à des solutions de gestion accessibles, supportées par la plateforme d’orchestration de container Kubernetes, elle aussi en Opensource.

Mais le stockage seul ne suffit pas : une donnée brute est inexploitable, quelle que soit son origine ou sa nature. Il est nécessaire de les organiser en amont, de manière à permettre une analyse pertinente et fiable, ce qui demande un gros travail préparatoire très minutieux. Il faut savoir que 50 à 80% du temps de travail d’un spécialiste de la donnée consiste à trier, organiser et préparer des données avant que celles-ci ne soient exploitables !

Applications du Big Data

Il existe de très nombreuses utilisations du Big Data, en particulier dans l’activité commerciale, l’expérience client, le développement de produit ou encore l’analyse prédictive. Cependant, il est impossible pour une entreprise de suivre la vitesse de génération des données, et la variété des sources les rendent difficiles à migrer et à exploiter efficacement. Alors au lieu de chercher à centraliser les données en une même localisation, l’idée est désormais de rapprocher les applications des sources de données, ce qui peut engendrer de nouveaux problèmes notamment au niveau du rapatriement des informations nécessaires au travail sur la donnée. La science des Data Analytics va ensuite permettre de vérifier un modèle, une théorie ou de réfuter une hypothèse en examinant la donnée brute dans le but d’en tirer des conclusions fiables.

Prédire des comportements

En classant des attributs de produits ou de services, les sociétés peuvent créer des modèles prédictifs pour anticiper la demande client. Le Big Data leur permet de modéliser la relation entre des attributs prédéterminés et le succès commercial relatif à une offre, circonscrite dans le temps. Il est aussi possible d’utiliser les données issues de groupes cible, de réseaux sociaux, de marchés test et même d’avant-premières afin de créer et de lancer de nouveaux produits et nouvelles lignes tout en anticipant leur succès. L’analyse de données vient soutenir la prise de décisions et permet d’évaluer la production sur une base objective, rationnelle et fiable.

analyse de la donnée

De la même manière, l’exploitation du Big Data permet de faire de la maintenance prédictive par exemple dans la défaillance mécanique, en s’appuyant sur les logs, les données de capteurs, les messages d’erreurs… et en les croisant avec des données structurées comme l’année, la marque et le modèle d’un équipement. Ces données deviennent alors des indicateurs de problèmes potentiels, qui permettent de prévenir leur apparition avant même que le problème ne se pose pour de bon. Les entreprises peuvent alors déployer leur maintenance de manière plus rationnelle et optimiser la gestion du renouvellement des équipements.

La valeur ajoutée

Dans le domaine de l’expérience client, l’analyse des données permet de trier des informations provenant de réseaux sociaux, de visites sur une page web, de logs et bien d’autres sources variées afin d’enrichir la valeur fournie. Il devient possible de corriger un point de friction, mais surtout de proposer des offres personnalisées et de travailler sur la rétention de manière proactive. Le Big Data accompagne l’innovation en offrant la possibilité d’étudier les interdépendances qui se créent entre les utilisateurs, les entités administratives, les processus etc. Exploiter ces informations permet de rationaliser la prise de décision dans les secteurs de la finance, ou encore de la planification, ce qui permet d’en tirer des tendances fiables.

La sécurité n’est pas en reste, car il est possible d’utiliser les data analytics pour déterminer des modèles de comportement (patterns), pour ensuite relever tout ce qui s’en écarte : cela permet par exemple de mettre en lumière de potentielles fraudes à la conformité. Agréger des volumes massifs d’informations peut aussi se faire au moyen du machine learning par exemple, en automatisant le reporting pour une performance accrue.

Au service de l’humain

On trouve également des applications des Data Analytics en médecine, le génie biologique ou GBM. Le Big Data offre de nouvelles possibilités de diagnostic grâce aux données issues des appareils d’imagerie, comme la scintigraphie, l’échographie, l’IRM, etc. mais également les automates d’analyses biologiques et de signaux tels que l’électrocardiogramme, les appareils de traitement des pathologies (laser, dialyse…) etc. Des ordinateurs spécialisés traitent en permanence ces informations au service du patient, devenant de nouveaux moyens d’investigation, mais aussi d’acquisition et de stockage de données. Autant de possibilités de comparer, de diagnostiquer, d’analyser la prise en charge, de projeter des modèles comme pour une étude épidémiologique par exemple.

Vers une rationalisation de la donnée ?

« Trop d’info tue l’info », c’est le problème majeur qui se pose dès lors que l’on manipule les masses immenses de données issues du Big Data : la quantité extraordinaire d’informations devient un obstacle du fait de son poids et de sa croissance exponentielle. Un autre problème se pose quant au niveau de certitude de la donnée : quid des informations « incertaines », par exemple lorsque l’on ignore qui a cliqué sur un bouton ou visité telle page ? Trop de volume, une croissance galopante et des informations peu crédibles peuvent amener à des erreurs d’interprétation, mais surtout une exploitation trop complexe et une perte de temps globale.

Mais les algorithmes statistiques et le machine learning peuvent venir résoudre une partie du problème, en particulier dans le domaine prédictif, où ils vont permettre de concevoir de la valeur, afin d’affiner l’analyse et de traiter des données encore inexploitées. En effet, on remarque que les entreprises ne traitent que 20% de leurs données actuellement (on parle de Dark Data pour désigner ces informations inexploitées) ! Pour manipuler, trier et classer de telles quantités d’informations, l’association intelligente d’une IA bien entraînée et de la statistique (pourvu qu’elles soient utilisées de manière vertueuse) va permettre de mener les projets avec plus de finesse. L’expertise du data analyst reste cependant indispensable à tous les niveaux : l’ordinateur n’est pas prêt de répondre tout seul aux questions que se posent les entreprises sur leur avenir ou le succès d’un nouveau produit ! La réponse est bien là, quelque part dans une masse de données colossale, mais encore faut-il savoir aller la chercher, l’extraire au moyen des bonnes questions et interpréter correctement les résultats.

Cependant, il reste primordial de se demander si une donnée est bien utile avant de la collecter. A quoi bon générer des quantités indénombrables de données si celles-ci ne sont pas pertinentes ou de mauvaise qualité ? D’ailleurs il est tout autant crucial pour l’entreprise de vérifier ses capacités d’analyse avant de chercher à capter des données, de manière à ne récolter que ce qui est nécessaire, utile et exploitable. De cette façon, le data analyst obtiendra des données d’une qualité suffisante, et surtout, sera capable de les exploiter dans un but clair et précis : le travail sur la donnée lui donne de la valeur, mais sans récolte pertinente de la donnée brute, l’analyse est impossible.