Présentation de la plateforme Talend Data Fabric
L’architecture fonctionnelle de Talend Data Fabric comporte une infrastructure locale et cloud.
Du côté du client, Talend Studio perdure : les jobs sont exécutés par le moteur distant (qui se charge de rassembler les ressources on-premise nécessaires) et peuvent être envoyés dans le cloud. Un navigateur web est nécessaire pour se connecter à la plateforme cloud.
Basculons côté cloud, les applications de gestion, de gouvernance, d’intégration et de préparation des données sont regroupées et unifiées dans le bloc Talend Data Fabric. Le moteur cloud exécute les artefacts (jobs, routes, services, …) dans le Cloud.
Faisons un zoom sur quelques applications de la Talend Data Fabric:
Talend Cloud Management Console
La TMC (Talend Management Console) est la console d’administration de la plateforme qui permet de :
- Gérer des rôles, utilisateurs et groupes
- Gérer les accès aux applications
- Gérer des projets
- Vérifier les licences disponibles
- Gérer, surveiller et planifier l’exécution des tâches
- Créer des promotions entre des environnements (ex : Dev, Prod)
- Stocker des projets sur un Git repository
- Créer un moteur distant
Talend Management Console (TMC) remplace Talend Administration Center (TAC). Il est aussi possible à travers la TMC de déployer les jobs créés dans Talend Studio.
Talend Cloud Data Stewardship
Talend Data Stewardship est l’outil de gouvernance des données de la suite Talend Data Fabric. Son but est de surveiller, d’améliorer, de nettoyer, de regrouper, … les données.
L’objectif est de lancer des campagnes de nettoyage sur les données non conformes dont leur correction implique une intervention humaine. Cet outil s’adresse à tous les types de public ; spécialiste ou non dans l’analyse de données. Un mail ou une notification est envoyé par un « nomiteur » aux membres élus pour les inviter à apporter des modifications sur le jeu de données. Tous les changements sont tracés dans l’outil.
Talend Cloud Data Preparation
Talend Cloud Data Préparation permet de corriger les données facilement et rapidement. Cette application est accessible par un utilisateur non technique. A gauche du jeu de données, l’ensemble des opérations ayant été réalisées sont listées, à droite de nombreuses fonctions de nettoyage sont proposées (standardiser des valeurs, supprimer les lignes ayant une cellule vide…). Les données sont modifiées directement sur la source.
Il est ensuite possible d’exporter la préparation (ensemble des étapes de nettoyage) de Talend Cloud Data Preparation dans un fichier .json afin de l’exécuter dans Talend Studio pour tous les jeux de données ayant la même structure.
Talend Cloud Pipeline Designer
Talend Cloud Data Inventory
Ces jeux de données sont accompagnés d’une documentation concernant le type de sémantique des colonnes, les connexions impliquées dans le jeu de données, l’indicateur de qualité du jeu de données, le type de moteur exécuté. Il permet de fournir des informations instantanées sur le niveau de fiabilité des données et ainsi créer un point de référence.
Talend Cloud Data Inventory constitue un lieu de stockage commun où les jeux de données peuvent être partagés entre utilisateurs.
Talend Cloud API Designer et Talend Cloud API Tester
Talend Cloud API Designer est une solution Web qui permet de concevoir, documenter et partager les définitions d’API. Une API est créée sur Talend API Design implémentée via Talend Studio, testée sur Talend API Tester, et exécutée via la TMC.
La mise en place d’une API implique la collaboration de plusieurs outils Talend.
API designer permet de définir :
- Une ressource
- Une opération comme GET (Lecture), POST (Création), PUT (Mise à jour), DELETE (Suppression)
- Un type de données
- Un composant
Talend Cloud Data Catalog
Talend Cloud Data Catalog est un catalogue central permettant de comprendre l’intégration complète des données d’un bout à l’autre de votre organisation avec un aperçu détaillé des transformations de données ayant été réalisées. Il s’agit en quelque sorte du « Google Map de la data ».
Stitch Data Loader
Stitch Data Loader s’intègre à la suite de Talend Data Fabric. C’est un outil de collecte de données qui assure le transfert sécurisé des données d’une source vers une destination. A l’image d’un pont, Stitch permet de faire le lien entre les sources de données et Talend.
Stitch Data Loader se connecte aux applications SaaS, aux bases de données relationnelles et aux sources de données telles SalesForce, MongoDB, Amazon Redshift, Databricks Delta Lakes, Google BigQuery…
Pour utiliser Stitch il est nécessaire de créer un compte sur https://www.stitchdata.com/
Il convient ensuite de choisir la source, d’indiquer ses caractéristiques puis de planifier la fréquence de chargement des données.
Une fois le transfert de données fini, il est possible d’utiliser ces données dans la Talend Data Fabric afin d’effectuer des transformations sur les données.
Les atouts de la Talend Data Fabric
Talend Data Fabric est populaire pour sa capacité à répondre à un large éventail de problématiques autour du Big Data, l’IoT, les API.
En effet, Talend Data Fabric permet l’implémentation des différents types d’architecture :
- Batch (exécution de jobs avec un gros volume de données)
- Real Time (exécution instantanée)
- Event Driven (exécution basée sur des événements publiés)
- Streaming (chargement en continu des données)
Le succès de Talend Cloud réside également dans sa polyvalence. La plateforme est à la fois un outil de gestion et de gouvernance, un outil d’intégration et un outil de préparation des données. On retrouve également cette polyvalence au niveau des 900+ connecteurs supportés, qui permettent de travailler avec des solutions Cloud (AWS, Google, Azure, SalesForce…), on-premise (SAP, SQL sever…) ou SaaS (Snowflake).
Au vue de la place grandissante des données dans le monde de l’entreprise, Talend redéfinit les frontières entre la donnée et les utilisateurs en offrant la possibilité aux personnes non technique de s’impliquer dans le processus de nettoyage des données grâce au lancement de campagnes initiés par l’outil Talend Data Stewardship.
La sécurité au sein de la Talend Data Fabric
Le passage au Cloud sous-entend sous-traitance de l’infrastructure et donc peut constituer une appréhension pour les clients concernant le stockage de leurs données.
Les données issues des jeux de données sont alors cryptées et entreposées dans une base de données mongo DB.
De plus, Talend Data Fabric possède des certifications de sécurité de valeur comme (SSAE16, Certification SOC 2 Type II, Certification ISAE 3402, Certification Cloud Security Alliance, …).
Par ailleurs, la reprise d’activité en cas de sinistre est assurée. En effet, Talend est hébergé par Azure et AWS : les données sont présentes dans plusieurs régions et également dans les zones de disponibilité au sein d’une région. L’infrastructure redondante est donc garantie.
Concernant les échanges entre Talend Data Fabric, le réseau local, ou les applications SaaS et les autres plateformes Cloud, la liaison est sécurisée grâce au port HTTPS.
CONCLUSION DE L’EXPERTE
Talend Data Fabric est donc une solution complète qui répond aux besoins des clients en leur mettant à disposition un large panel d’outils permettant de gérer la donnée de A à Z.
De plus, Talend Data Fabric est idéal pour les amateurs de Talend Studio puisqu’avec la version Cloud ils pourront bénéficier des applications de Data Fabric afin de gagner en performance et efficacité pour relever les nouveaux défis de la data.
Nous sommes désormais partenaire Gold Talend afin de vous assurer le meilleur niveau d’expertise sur les différents outils de la plateforme.