Data / IA
Gouvernance des données et « lignage » automatique : survivre aux exigences réglementaires
Par La rédaction, publié le 26 janvier 2023
Le volume croissant des données et les exigences réglementaires imposent aux organisations de prouver au régulateur quelles données comportent leurs systèmes, mais aussi le cheminement de celles-ci. Mais comment combiner Gouvernance et Lignage ?
Par Frédéric Fourquet, Product Marketing Manager Data Intelligence de MEGA International
et Ernie Ostic, Senior Vice-président des produits de MANTA Software
Il n’est désormais plus suffisant de connaitre et maîtriser les données, il est également nécessaire de décrire leur parcours en toute transparence.
Cela implique de se questionner sur ce que suppose cette exigence de traçabilité en termes de stratégies à mettre en place, et sur les outils et méthodologies capables d’assurer une traçabilité complète pour répondre aux exigences du législateur et du marché.
Retracer le parcours complexe des données grâce au lignage automatique
Le « data lineage » est avant tout un flux de transformation. Il permet de retracer en quelque sorte la généalogie technique des données en donnant un aperçu précis du chemin parcouru dans les systèmes informatiques. Cette démarche permet d’avoir une vision complète du cycle de vie de la donnée, de sa collecte à sa destruction, en passant par son exploitation. Même si le lignage automatisé est nécessaire pour des portefeuilles technologiques complexes, il s’agit de faire le lien avec les utilisateurs (les métiers) au-delà des aspects techniques, notamment au cours de la phase de découverte des données et de la modélisation des processus sous-jacente.
L’enjeu du lignage de la data est ainsi de comprendre ce qui se passe dans le cheminement de la donnée : d’où elle vient, où elle va, qui la recueillie, qui l’utilise, la réutilise, etc. La donnée n’est pas statique, elle intègre des processus et nécessite une vue approfondie et dynamique. Le lignage technique des données permet de savoir ce qui s’est précisément passé dans le système, quel traitement elles ont subi depuis leur création. Ce travail permet non seulement de disposer des données mais aussi d’en faire plus en en retraçant précisément l’histoire, le parcours.
Gouvernance des données : prouver l’origine et la destination des données
Avec le nombre croissant de réglementations sur les données, notamment le RGPD en Europe, l’enjeu est de prouver au régulateur de quelle manière a été obtenue chaque donnée. Un manquement à cette exigence peut mettre les organisations en danger, quel que soit le secteur. La gestion des données étant un processus de transformation au long cours, il est crucial de pouvoir retracer l’historique de chaque donnée pour en justifier l’origine, le traitement, etc. Il ne s’agit plus seulement de fournir les données traitées au législateur, il faut aussi être en mesure de démontrer leur lignage, leur généalogie dans le système. Sur des volumes exponentiels du big data, l’automatisation est ainsi incontournable.
À LIRE AUSSI :
Modéliser le cycle de vie de la donnée de manière automatisée permet alors d’éviter les efforts manuels énormes, voire impossibles avec un certain volume de données. L’automatisation est indispensable par exemple quand une entreprise dispose de plusieurs centaines de données critiques à traiter et que seulement 10 à 15 données par an peuvent être traitées manuellement par le Data Office. L’automatisation de la phase de lignage permet de dégager plus de temps pour se concentrer sur l’aspect gouvernance des données pour assurer le travail de mise en conformité réglementaire.
Assurer la conformité : la vérité est dans le code
L’automatisation permet une adaptation dynamique dans le temps, en fonction des différentes versions, des périodes de traitement, etc. La vérité des données se trouve dans le code. C’est écrit quelque part dans les méandres techniques et le lignage permet de la sonder, d’en avoir une vue précise. C’est le cas avec les programmes Cobol par exemple dont il s’agit de révéler les secrets en décrivant le lignage par un scan minutieux des systèmes sous le prisme de leur évolution dans le temps. Ainsi, trouver le chemin de la donnée peut permettre d’interpréter ce que font les programmes Cobol dans un système.
Le régulateur, de son côté, a besoin de comprendre les données au niveau des métiers mais aussi au niveau technique. Les parties prenantes sont sensibilisées au risque, notamment dans le secteur bancaire, et connaissent leur exposition à la non-conformité et aux amendes liées. Avec le lignage et la gouvernance des données, les processus sont décrits objectivement et les personnes étant intervenues sur les données sont identifiées. Il n’est plus nécessaire d’enquêter pour trouver qui a fait le code et qui a le process en tête, tout est à la disposition du Chief Data Officer et du régulateur.
Intelligence artificielle : tirer parti de de la connaissance des données
Si le Data steward collecte et modélise les données pour le catalogue de données, le rôle du Data scientist est de concevoir des algorithmes qui font des recommandations pour créer ou améliorer un service ou un produit. C’est possible par exemple grâce à la modélisation du comportement des clients issue des données fournies en amont. D’où l’avantage d’avoir une connaissance du cycle de vie de la donnée (lignage) dès la conception d’une intelligence artificielle pour valoriser la bonne donnée et permettre les meilleurs résultats possibles. C’est aussi vrai lors de la mise en production afin de libérer le potentiel de l’I.A,, laquelle, pour être fiable, nécessite des données stables et de bonne qualité.
La possibilité de détecter les changements intervenus dans le temps et mettre en place des alertes par sujet est alors un atout supplémentaire. Dès lors, le plus important est d’aider les Data scientists en travaillant sur le cycle de vie technique des données et en leur apportant de la valeur par des balises actives, sortes de pense-bêtes sur la qualité ou d’autres problèmes liés aux données. Cette fonctionnalité de notification est une étape supplémentaire afin de pourvoir détecter de nouvelles données à travers des lignages progressifs.
À LIRE AUSSI :