Contexte de qualité de données
Le nombre de données stockées est en augmentation exponentielle. Conserver un haut niveau de qualité est un défi majeur. Une base de données peut être truffée de doublons, ou au contraire présenter des lignes avec des valeurs manquantes ou au format incorrect. Aucun système n’est imperméable aux contenus corrompus. Les informations erronées sont encore plus préjudiciables que l’absence d’information. Les problèmes de qualité de données peuvent entrainer une perte de confiance dans les données.
Il existe de nombreux systèmes conçus de différentes façons et selon des normes différentes. Ces systèmes utilisent des données de référence, des processus et des règles variées, et impliquent différents groupes de personnes. Il en résulte différentes représentations des objets de données.
Afin d’éviter d’avoir recours à une multitude de systèmes, Talend propose un ensemble de fonctionnalités appelées Talend Data Quality que l’on retrouve dans le studio Talend (nécessite une souscription) qui permettent de profiler les données et identifier ainsi les problèmes.
Il est à noter que le profilage des données joue un rôle important dans tous les projets riches en données, notamment les projets de migration de données, de standardisation des données clients dans un système GRC ou encore la constitution de base de données avec des enregistrements maitres uniquement (Master Data Management).
Analyser ses données régulièrement permet à long terme d’obtenir des rapports précis, mais pas seulement. En effet, l’exactitude des données permet d’améliorer la capacité à établir des prévisions d’activité exactes. Elle permet également la compréhension de l’étendue des problèmes dans les données avant une migration de projet et de réduire ainsi les risques dans le système cible. Une bonne qualité de données permet de réduire les coûts en éliminant le travail en double (suppression d’éléments, contrôle des exceptions…).
Marqueurs de qualité de données
Les initiatives menées en matière de qualité des données sont généralement axées sur l’amélioration de l’exactitude, exhaustivité, cohérence, disponibilité, unicité et validité des données afin que celles-ci favorisent une performance optimale des systèmes de l’entreprise et donner aux utilisateurs confiance dans les données.
Talend Data Quality vous permet d’accéder à des données de tous formats, d’identifier des anomalies, de standardiser les données, de traiter les doublons et de monitorer la qualité des données au fil du temps.
Processus de qualité de données
Le nettoyage de données est effectué au début du processus, ce dernier est réalisé en grande partie par le profiling de nombreuses sources de données.
Talend Data Quality réalise cette tâche grâce à différentes analyses que vous créez et exécutez sur vos données. De manière générale, la perspective Profiling de Talend Data Quality permet de découvrir les problèmes et les problèmes potentiels dans les données mais ne les résout pas.
Afin de résoudre les problèmes rencontrés, vous utilisez Talend Data Integration (perspective Integration) en définissant des Jobs. Vous pouvez également combiner les produits Talend, par exemple Talend Cloud Data Preparation et Talend Cloud Data Stewardship pour aider à la gestion des jeux de données et l’organisation d’interactions humaines sur les données.
Analyse de données
Le profilage des données est rendu possible grâce à cinq catégories d’analyse :
- Analyse structurelle : elle renvoie un aperçu du contenu de votre base de données. Cela vous permet d’identifier rapidement la base de données qui contient le plus de données, les tables vides, le nombre de tables, le nombre de lignes, etc.
- Analyse de colonne : elle permet de profiler les données sur la base d’une colonne. Chaque colonne est analysée séparément et les dépendances des colonnes ne sont pas prises en compte. Vous pouvez notamment sélectionner des indicateurs personnalisés ou prédéfinis selon le type de données, analyser le nombre de valeurs uniques, distinctes ou en doublon, analyser les fréquences de modèles, effectuer des rapprochements d’expression régulières, etc.
- Analyse de table : Les colonnes sont examinées en ensembles et les dépendances entre les colonnes peuvent être analysées, ainsi que les aperçus de lignes uniques, distinctes ou en doublon, etc. Dans cette analyse, la ligne est l’élément indivisible que vous analysez au sein d’une table unique. Elle est nécessaire lorsque des données sont saisies sous forme de texte libre, sans validation des champs et par plusieurs utilisateurs. Elle permet de générer des enregistrements maitres.
- Analyse inter-tables : elle est utilisée pour vérifier la relation entre deux tables. Elle peut aussi être utilisée pour trouver la clé étrangère.
- Analyse de corrélation : elle permet d’explorer les relations et les corrélations dans les données. Elle n’est pas utilisée pour fournir des statistiques sur la qualité de données.
Vous pouvez améliorer une analyse de colonne simple à l’aide de différents indicateurs et fonctionnalités :
- Vous pouvez valider les données d’une colonne par comparaison avec une expression régulière. De nombreuses regex sont disponibles dans le référentiel Data Quality, tout comme vous pouvez en télécharger de nouvelles ou en créer des supplémentaires plus adaptés à vos besoins métiers.
Confidentialité de données
- Les données non valides peuvent être associées à un seuil d’indicateur. Vous pouvez facilement configurer des seuils d’alerte pour mettre en évidence les données qui sont en dehors de la plage des valeurs.
- Les statistiques avancées permettent le calcul des indicateurs de fréquence de données. Elles permettent l’évaluation des enregistrements qui apparaissent le plus ou le moins fréquemment dans une colonne.
La protection des données sensibles peut être une tâche délicate pour les entreprises dont les décisions sont basées sur les données. Dans un monde connecté dans lequel la réglementation en matière de confidentialité des données évolue sans cesse (RGPD, HIPAA, etc.), le Studio Talend offre des solutions faciles à installer afin de mettre ses données en conformité aux dernières exigences.
On peut utiliser Talend Studio pour mélanger des données personnelles afin d’en garantir la protection par exemple, ou encore masquer le nom des clients et des informations sensibles pour les démonstrations de logiciels, les Dashboards BI….
Talend Data Quality offre différents composants de rapprochement permettant de créer un Job d’intégration pour offrir une confidentialité à vos données tels que tDataMasking et tDataShuffling.
Nettoyage de données
Talend Data Integration résout les problèmes de données détectés par le profilage de celles-ci. Le nettoyage des données permettra à terme d’éliminer les erreurs, les doublons et les incohérences ; mais également de standardiser les données ainsi que les enrichir. Le nettoyage de données permet également d’intégrer différentes bases de données.
Il n’existe pas de stratégie prédéfinie pour aborder les problèmes de qualité de données, toutefois, quelques éléments sont à prendre en considération :
- Chaque situation nécessite une méthodologie spécifique
- Priorisez et planifiez selon vos besoins métier, l’importance de la structure des données
- Tous les nettoyages de données ne sont pas automatisables :
- Un data steward devra peut-être intervenir pour résoudre un problème
- Certains problèmes ne seront jamais résolus, par exemple des données héritées manquantes peuvent être impossible à récupérer.
- Souvent cyclique : Après le nettoyage des données, vous devez vérifier et profiler de nouveau les données afin de détecter les éventuels problèmes de qualités restant.
CONCLUSION DE L’EXPERT
Talend Data Quality est un ensemble de fonctionnalités faciles à prendre en main et configurables à souhait. Vous pouvez effectuer tous types d’analyses sur vos données en quelques clics. Vous pouvez même générer un job automatiquement avec le résultat de votre profilage de données, tout comme vous pouvez extraire une expression régulière que vous pourrez réutiliser.
Il s’agit d’un outil qui s’intègre bien avec les autres outils de la Talend Data Fabric. Vous pouvez par exemple importer une préparation de données à partir de Talend Cloud Data Preparation, appliquer celle-ci à vos données, appliquer ensuite des fonctions de masquage de données personnelles, puis appliquer des fonctions d’analyse de données afin de ne conserver que les enregistrements maitres et envoyer les données invalides à Talend Cloud Data Stewardship.
Talend Data Quality permet donc de faciliter la mise en conformité de vos données, leur masquage, leur l’enrichissement et le nettoyage en toute simplicité et d’automatiser la plupart des tâches pour être exécuté fréquemment afin d’obtenir des données exactes, exhaustives, cohérentes, uniques et valides.
Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.