La concurrence entre les éditeurs d’outils ETL augmente de jours en jours. Cela vient en partie du fait que les entreprises utilisent de nombreux outils et de nombreux progiciels. Ils souhaitent de plus en plus analyser, croiser, fiabiliser et maîtriser leurs données dans un but décisionnel. De nombreux outils d’extractions, de transformations et de chargements des données existent actuellement sur le marché, ce qui rend le choix encore plus difficile.
Dans cet article, nous allons nous intéresser plus particulièrement à l’ETL IBM InfoSphere DataStage.
Qu’est-ce qu’un ETL ?
ETL, sigle signifiant Extract Transform Load en anglais (traduit par Extraction, transformation et chargement), est un procédé informatique permettant de charger un data warehouse à partir de données externes généralement issues de bases transactionnelles ou de fichiers plats. Son rôle est de récupérer ces données et de les traiter pour qu’elles correspondent aux besoins du modèle dimensionnel. En général, les données sources doivent être « nettoyées » et aménagées pour être exploitables par les outils décisionnels. La première question que l’on se pose est souvent la suivante : « Quel outil ETL choisir et pourquoi ?»
Pour répondre de manière objective à cette question, il faut prendre en compte un certain nombre de critères même si le principe de base reste le même entre tous les ETL. Ainsi, en fonction de ses besoins et de ses moyens, chacun pourra décider quel ETL privilégier par rapport aux autres.
IBM InfoSphere DataStage
DataStage est le composant d’intégration de données d’InfoSphere Information Server. C’est un outil ETL appartenant à la suite IBM InfoSphere. Il permet à des utilisateurs, avec l’édition de jobs, de traiter en source tous types de données afin de les rendre utilisable en sortie.
DataStage allie la puissance du développement classique (requêtes SQL, code C++) à la simplicité du développement graphique, ce qui en fait l’un des plus performants dans son domaine.
Les différents modules de DataStage
DataStage se compose d’une partie cliente et d’une partie serveur. Le développement des traitements ETL se fait au niveau du poste client. Quant au serveur DataStage, c’est au niveau de ce dernier que sont établies les connexions aux différentes bases de données utilisées.
L’outil propose plusieurs modules permettant à tous les acteurs d’un projet d’interagir avec celui-ci de façon dynamique. DataStage est également compatible avec un environnement de travail Windows ou Linux afin d’utiliser l’authentification déjà existante en entreprise (Windows AD par exemple).
En termes d’architecture, la solution est composée des éléments suivants :
- La Plateforme Information Serveur (Information Server Platform) :
Cette partie serveur est constituée d’un moteur d’exécution parallèle (Information Server Engine, Service Agents et des connecteurs pour accéder aux données), d’un module Services qui est l’ensemble des services permettant de centraliser les tâches de base (les Common Services, le Serveur d’application Websphere…) et d’un référentiel qui stocke les objets de tous les produits de la suite Information Server.
- Les modules clients :
DataStage Designer est l’outil principal de la suite permettant la création de job.
Ce composant vous aide à créer, gérer et concevoir des travaux. Vous pouvez également utiliser le client Designer pour définir des tables et accéder aux services de métadonnées. DataStage Designer propose de nombreux composants nécessaires pour travailler sur des bases de données ou des fichiers externes ainsi que des composants d’agrégation ou de transformation complexe
DataStage Director est le module permettant l’exécution et le suivi des traitements au sein d’un projet. Il propose également de nombreuses informations pour visualiser la qualité des résultats obtenus. Il est également possible de superviser la planification des différents flux et de consulter les logs d’exécution. La visualisation de l’exécution des jobs sous Director peut se faire selon ces 3 modes différents (Logs, Status, Schedule) :
DataStage Administrator n’est pas affilié à un projet en particulier, il gère l’ensemble des projets d’un serveur. En effet, un utilisateur de ce module (ayant les droits nécessaires) peut créer, supprimer ou configurer des projets.
- La solution est complétée par deux consoles d’administration Web :
Une console pour la gestion du serveur d’application WebSphere pour gérer les droits d’accès à l’application et une console pour la gestion de la suite InfoSphere offrant la possibilité d’effectuer des Imports/Exports de composants afin de réaliser les livraisons entre les différents environnements
Infosphere DataStage permet d’accomplir les objectifs suivants :
- Construire des flux de données qui extraient les informations provenant de sources multiples, transformer les données au format attendu et délivrent les données aux bases de données ou applications cibles.
- Se connecter directement aux applications de l’entreprise en tant que sources ou cibles pour s’assurer que les données sont pertinentes, complètes et exactes.
- Réduire les temps de développement et améliorer la cohérence de la conception et du déploiement à l’aide de fonctions prédéfinies.
- Réduire le cycle de réalisation du projet en travaillant avec un ensemble commun d’outils dans la solution.
Points Forts de DataStage
- Une connectivité très complète pour accéder facilement et rapidement à n’importe quel système source ou cible.
- Une plateforme évolutive qui facilite le traitement des données de l’entreprise.
- Une bibliothèque de plus de 300 fonctions prédéfinis incluant des transformations complexes.
- Possibilité d’utiliser des contextes (appelés DataSets) afin de pouvoir switcher d’un environnement à un autre (Développement, Qualification, Production).
- Une exécution des jobs possibles en batch, en temps réel ou comme service web.
- Un traitement parallèle haute-performance.
- Une documentation complète.
Points Faibles de DataStage
- Installation de l’outil complexe
- Difficulté pour rechercher le composant voulu dans la palette
- Coût de la licence
- Impossibilité de partager des jobs entre projets
- Nécessite un serveur dédié avec de fortes ressources
CONCLUSION DE L’EXPERT
Tout d’abord, il est important de choisir l’outil d’intégration des données qui correspond le plus à vos besoins, le plus à vos moyens et qui peut être mis en œuvre avec les ressources et les compétences dont vous disposez.
IBM Infosphere est une puissante plateforme ETL qui vous permet de dynamiser votre entreprise au moyen d’un outil ETL complet. DataStage se démarque de ses concurrents en vous permettant de configurer rapidement de nouveaux environnements ETL dans le Cloud ou localement.
Comme dans toutes les familles de logiciels, chacun a des points forts et d’autres points qui sont moins à son avantage, nous vous invitons donc à lire les autres articles de cette série qui permettent de voir les points forts et points faibles de SAP Data Services, SSIS et Talend.