Sélectionner une page

Quand on gère son propre système d’information, des incidents peuvent survenir à tout moment. L’effondrement d’une base de données, le crash d’un système ou encore une panne matérielle peuvent coûter très cher à l’entreprise : la correction du problème, le remplacement des éléments au besoin, mais surtout la perte de temps d’activité vont engendrer des surcoûts dont toute entreprise se passerait bien.

Faciliter le travail des administrateurs réseau et BDD

En général, on ne se rend compte de la compétence de l’équipe technique en charge que lorsque des incidents surviennent : c’est là qu’il est nécessaire de disposer de ressources efficaces, formées et accréditées pour raccourcir le temps de prise en charge d’un incident. Le workflow de la gestion d’incident se structure en 5 phases : détection du problème, application de la réponse, compensation, analyse du problème et remise à disposition du service. En général, la plupart de ces étapes nécessitent une action humaine : même si l’équipe IT dispose des outils de détection appropriés, le temps de prise en charge peut être extrêmement variable d’un ticket à l’autre.

L’idée est d’intégrer le machine learning dans le workflow : en automatisant une ou plusieurs parties du process, on optimise le temps de gestion d’incident. En effet, gérer systématiquement à la main ces étapes, en plus d’être chronophage, monopolise des ressources humaines qui pourraient être affectées directement à la résolution d’incident.

S’il est impossible de se passer de l’expertise humaine dans la résolution d’incident, il y a cependant moyen de soulager le travail des équipes grâce au machine learning. Par exemple, prédire les incidents de manière proactive, améliorer les capacités de recherche et d’accès aux connaissances, trier la gravité des alertes et les séparer des incidents de routine avec davantage de précision sont du domaine du possible.

Prédire les incidents à répétition

Le machine learning peut intervenir dans des cas où des incidents se répètent (matériel qui donne des signes de défaillance, surcharges, etc.), mais aussi en étant capable de déduire un pattern de comportement. L’outil anticipe littéralement un comportement qui se répète et prévient les techniciens : en améliorant ainsi la gestion des incidents de routine, on optimise la gestion du temps de travail en permettant aux ingénieurs réseau de concentrer leur attention sur les incidents qui le nécessitent vraiment. Ces outils interviennent dans les premiers niveaux du système d’escalade des tickets d’incident, afin de résoudre les problèmes les plus simples et récurrents plus rapidement.

Mais la machine peut aussi être capable de prédire un comportement, en stockant l’historique des incidents passés, en comparant des données et en en déduisant un pattern (un comportement répétitif). Par exemple en cas de serveur hors service, de disque plein, de chute des performances, les outils peuvent envoyer des alertes en prévision avant même que les premiers symptômes ne se manifestent. En repérant ces récurrences, l’équipe est aussi plus à même de trouver une solution pour régler définitivement ce type de problème à la racine et améliorer le fonctionnement général du système.

Optimiser la phase d’identification

Dans le workflow de la gestion d’incident, la première étape – la plus critique, celle dont tout va découler – est d’identifier le problème le plus exactement et le plus rapidement possible. On connaît tous le cas classique de la pile de tickets d’incident décrivant chacun un problème différent à un moment différent, dont pourtant l’origine se révélera avoir une cause unique.

Quand les tickets sont gérés un à un par différentes personnes ou même par une seule, il y a de grandes chances que ceux-ci soient traités comme des anomalies séparées avant que l’on ne se rende compte de la corrélation entre les problèmes, autrement que par la simultanéité d’apparition des incidents. Cela ralentit d’autant plus le workflow et augmente le risque d’impacts sur l’activité de l’entreprise.

Le machine learning peut intervenir en accélérant ce temps d’analyse, grâce à une puissance de calcul, une capacité mémorielle et un accès à l’historique des incidents supérieure à celle de l’humain. L’outil est ainsi capable de croiser les données et d’en tirer des conclusions plus rapidement sur la base de données concrètes et d’incidents passés, devenant ainsi un précieux assistant pour l’équipe technique.

Sans jamais remplacer l’expertise humaine, le machine learning peut donc intervenir à différents niveaux pour faciliter le travail des informaticiens, en particulier dans la gestion des incidents.