Contexte d’une gouvernance de données collaborative
Aujourd’hui, les entreprises dont la prise de décisions est basée sur des données de qualités mettent en place des projets de gouvernance de données visant à garantir des données exactes, cohérentes, et valides à tous les niveaux des systèmes d’information.
Afin de garantir la réussite de ces projets, il est nécessaire de décloisonner l’entreprise pour développer l’agilité. Cela passe par l’encouragement de la collaboration entre les équipes et l’utilisation de processus flexibles et évolutifs.
Ce défi peut être relevé en passant par le catalogage des données de l’entreprises pour offrir une vue holistique de ces dernières. Talend fournit pour cela un outil très puissant, Talend Data Catalog.
La réussite de ce défi requiert également des outils permettant une automatisation des tâches de standardisation des données à l’aide de l’intelligence artificielle. Talend offre pour cela l’outil Talend Cloud Data Preparation et les fonctionnalités Talend Data Quality.
Enfin, pour les opérations qui ne sont pas automatisables, il faut mettre au cœur d’une stratégie de gouvernance la collaboration humaine. Talend fournit pour cela un outil intuitif, Talend Cloud Data Stewardship, permettant de faire intervenir des experts en la matière ayant une connaissance pointue des données de l’entreprise. Cette approche repose sur un outil « pointer et cliquer » qui fait partie de la suite Talend Cloud et ne nécessite donc pas d’installation locale, une licence suffisant à exploiter toutes les fonctionnalités qu’il offre.
Présentation de Talend Cloud Data Stewardship
Talend Cloud Data Stewardship permet de s’assurer que les données sont utilisées de manière cohérente dans toute l’entreprise et de réduire l’ambiguïté dans les données grâce aux métadonnées et à la sémantique.
Cet outil permet de définir et de maintenir des modèles de données, documenter, nettoyer des données, définir des règles et des politiques de qualité de données. Il permet le déploiement de processus de gouvernance de données biens définis couvrant plusieurs activités en incluant le monitoring, le dédoublonnage, le nettoyage, le regroupement, et l’agrégation afin de délivrer des données de qualité aux applications et aux utilisateurs finaux.
Le fonctionnement de Talend Cloud Data Stewardship est basé sur les notions de campagnes et de tâches.
Une campagne contient une série de tâches dont la résolution vise à achever un objectif. Une campagne possède un ou plusieurs propriétaires. Celle-ci est attachée à un modèle de données. Elle est définie par un type, une liste de participants – data stewards, groupés par rôle – qui peuvent participer à la campagne, des permissions pour chaque champ du modèle de données, pour chaque rôle, et enfin des workflows pour orchestrer la campagne.
Une tâche est l’unité de travail principal pour les data stewards. Elle peut être reliée à un seul enregistrement ou plusieurs. Une tâche appartient toujours à une campagne.
Talend Cloud Data Stewardship est complètement intégré à la plateforme Talend Data Fabric, de ce fait, il peut être associé avec des flux de données et des flux d’intégrations que Talend peut gérer à l’aide de composants configurables. Vous pouvez intégrer de la gouvernance dans des flux d’intégration de données, et des processus de correspondance de données.
Les modèles de données
Un modèle de données est un ensemble d’attributs qui détermine la structure des données à gérer dans une campagne. Chaque attribut tend à définir une colonne du jeu de données à traiter. Un attribut est associé à un type primitif ou à un type sémantique prédéfini ou ajouté au Talend Dictionary Service.
En fonction du type de l’attribut, vous pouvez ajouter une expression régulière pour la validation des données par les data stewards tout comme vous pouvez énumérer des valeurs acceptées. Vous pouvez également indiquer aux data stewards si les valeurs vides sont autorisées ou non.
Les types de campagnes
Talend Cloud Data Stewardship propose quatre types de campagne en fonction des besoins de traitement de données. Il est à noter qu’une campagne est créée par un gestionnaire de campagne dont il sera le propriétaire. C’est ce dernier qui déterminera la structure des données à gérer et l’attribution des tâches aux data stewards (toutefois il est possible de déléguer certaines tâches, par exemple à un collègue ayant une connaissance des données plus pointue).
- Les campagnes de résolution permettent de gérer les anomalies rencontrées dans les données telles que des valeurs invalides ou des valeurs absentes.
- Les campagnes d’arbitrage permettent de définir une liste de choix possibles en réponse à une question sur des tâches pour les data stewards.
- Les campagnes de regroupement permettent, comme une campagne d’arbitrage, de définir une liste de choix possibles en réponse à une question. Toutefois, ces choix se portent sur des paires ou des groupes d’enregistrement. Elles permettent d’identifier par exemple des doublons dans des enregistrements maîtres. Ce type de campagne est utile pour organiser une campagne de fusion avec les données dupliquées.
- Les campagnes de fusion permettent de fusionner plusieurs enregistrements de données dupliqués en un seul enregistrement maître (« Golden record »). Les sources de données utilisées pour ce type de campagne peuvent être différentes. Par exemple, dans le cas de la fusion des données de deux CRM (ancien et nouveau) d’une même entreprise, une campagne de fusion permet de conserver les données les plus exactes, cohérentes et valides tout en ayant la possibilité de fusionner les données de deux sources pour ne produire qu’un seul enregistrement qui sera le seul à être conservé.
Quelque soit le type de campagne, il faut définir un workflow qui sera suivi pour le traitement des tâches et ainsi définir un cycle de vie au cours duquel elles passent entre différents états. Chaque étape du workflow est accessible au groupe de participants défini.
Création de tâches
Talend Cloud Data Stewardship s’intègre très bien avec les autres outils Talend, notamment le studio Talend. Cette interconnectivité entre les outils Talend permet la création de tâches en utilisant des Jobs d’intégration de données en se basant sur une campagne importée depuis Talend Cloud Data Stewardship.
En effet on retrouve des composants tDataStewardshipTaskOutput et tDataStewardshipTaskInput permettant respectivement la création de tâches dans une campagne et la récupération des tâches en fonction des critères spécifiés.
Ces composant sont paramétrables : vous pouvez par exemple assigner des tâches à un data steward défini dans la campagne.
Monitoring des campagnes
CONCLUSION DE L’EXPERT
Talend Cloud Data Stewardship est un outil s’intégrant dans un projet visant à améliorer la qualité des données en faisant intervenir des experts en la matière ayant une connaissance précise des données manipulées au sein d’une entreprise.
C’est un outil très intuitif et facile d’utilisation. Il ne présente pas de menus superflus et ne nécessite pas une longue période de prise en main pour le maîtriser.
Il est important de souligner que la gouvernance de données est l’affaire de tous. Talend propose des outils permettant un gain de temps considérable dans les tâches quotidiennes, ce qui rendra moins frileux les plus réfractaires pour l’adoption d’une culture de gouvernance de données.
Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.