Introduction
Parmi toutes les solutions d’intégration de données que nous retrouvons sur le marché, Talend Cloud Data Integration et Pentaho Enterprise Edition (EE) offrant des fonctionnalités performantes et fiables pour l’intégration et le traitement des données.
Bien que Talend et Pentaho présentent de nombreuses similitudes, notamment leur approche ETL graphique développée en Java, Ils se distinguent sur plusieurs points, notamment leur orientation et leur public cible.
Dans cet article, nous allons comparer Talend Cloud Data Integration et Pentaho EE (Data Integration & Analytics) sur plusieurs aspects clés de leurs fonctionnalités. L’objectif est de vous aider à identifier la solution la plus adaptée à vos besoins.
Présentation des outils
Pentaho Enterprise Edition (EE)
Pentaho Enterprise Edition est une solution complète qui combine l’intégration de données (PDI) et l’analyse de données (PBA).

Pentaho Data Integration (PDI), anciennement connu sous le nom de Kettle, est l’outil ETL de Hitachi Vantara dédié à l’intégration de données.

Pentaho Business Analytics (PBA) est la solution de visualisation de données incluse dans Pentaho EE. Elle permet de créer des tableaux de bord et des rapports à partir de diverses sources de données (bases internes, cloud, Big Data) et a été conçue pour être accessible aux utilisateurs sans compétences techniques avancées.
Ces deux outils sont reliés à l’User Console une interface web qui fait office de plateforme d’administration, de référentiel et de point d’accès à Pentaho Business Analytics.
Pentaho EE peut être installé on-premise ou déployé sur le cloud via AWS ou Azure.
Inscrivez-vous à la newsletter DeciVision !
Soyez notifiés de nos derniers articles de blog, de nos prochains webinars et nos actualités !
Talend Cloud Data Integration
Talend Cloud Data Integration est le premier niveau de licence de Talend Cloud. Cette solution se compose de deux éléments principaux :

Talend Studio, l’outil de développement ETL, utilisé pour concevoir et exécuter des flux d’intégration de données.

Talend Management Console (TMC), une console web permettant l’administration, l’orchestration et la supervision des flux. La TMC est uniquement disponible en tant que Saas.
Comparaison des studios ETL
L’interface utilisateur
Comme mentionné dans l’introduction, les deux outils ETL sont développés en Java :
- Talend Studio repose principalement sur Eclipse RCP,
- Pentaho Data Integration (PDI) est basé sur Java Swing.
Ces frameworks sont utilisés pour créer des applications de bureau avec une interface graphique.
- Pentaho (PDI) dispose d’une interface Spoon simple et intuitive, bien qu’un peu vieillissante qui mériterai peut-être un petit rafraîchissement.
- Talend Studio, en revanche, offre une interface plus moderne, mais dont la prise en main peut être légèrement plus complexe dans certaines fonctionnalités. Toutefois, elle bénéficie d’une documentation riche facilitant l’apprentissage.
Pentaho Data Integration

Talend Studio

Information supplémentaire : Talend est un générateur de code java, il a besoin de compiler les flux avant de pouvoir les exécuter. Pentaho lui utilise un moteur d’exécution pour interpréter ses fichiers job et ses transformations afin de les exécuter.
Modèle de développement des flux ETL
- Pentaho sépare le développement dans son interface « spoon » en deux composantes distinctes :
- Les transformations : pour manipuler, transformer et déplacer les données de la source à la cible.
- Les jobs : pour orchestrer l’exécution des différentes transformations et automatiser les processus ETL.
- Talend, à l’inverse, utilise un seul espace de travail appelé Designer, permettant à la fois d’orchestrer le flux ETL et de manipuler les données au même endroit. Cette approche offre plus de flexibilité aux développeurs ETL. Dans Talend un flux ETL est appelé « Job » à ne pas confondre ou comparer avec les jobs de Pentaho.
Ci-dessous, un exemple de flux simple développé sur Pentaho (job et transformation) et sur Talend (job designer).
Ce flux vérifie si un fichier contenant des numéros Siret existe. Si le fichier existe un Appel API est réalisé sur l’api sirene de l’INSEE afin de récupérer les informations (raison sociale, adresse postale, code naf, etc…), pour ensuite insérer ces données dans un fichier client. Un mail est envoyé en cas d’erreur ou de succès.
Pentaho spoon
Job :

Transformation :

Talend designer
Job :

Fonctionnalité ETL
Connectivité :
Pentaho propose un large éventail de connecteurs couvrant :
- Les bases de données classiques (SQL)
- Fichier, FTP…
- Les technologies NoSQL et Big Data (ex : Hadoop)
Talend va encore plus loin en matière de connectivité avec un plus grand nombre de connecteurs natifs, notamment pour les environnements cloud. Cela le rend particulièrement adapté aux architectures modernes basées sur le cloud et facilite l’intégration de solutions SaaS dans le processus ETL.
Gestion des erreurs :
Pentaho propose un système de logs et de gestion des erreurs simple, permettant d’enregistrer les erreurs et événements. Il offre une visibilité sur chaque étape du flux ETL. Il est également possible d’ajuster le niveau de logs généré par Pentaho lors de l’exécution.


Exemple de gestion des erreurs sous Pentaho
Talend dispose d’un système de gestion des erreurs plus avancé, intégrant :
- La capture détaillée des erreurs.
- Des mécanismes d’analyse et de gestion conditionnelle.
- Des outils facilitant le débogage et l’optimisation des flux ETL.



Exemple de gestion des erreurs sous Talend
Travail en collaboration
Pentaho EE repose sur un référentiel centralisé (Enterprise Repository) permettant :
- Le partage et le versionning des transformations et jobs (tâches) ETL.
- Une gestion fine des droits d’accès par utilisateur/groupe,
- La collaboration simultanée avec un verrouillage des fichiers pour éviter les conflits.
La connexion au référentiel centralisé peut être effectuée depuis l’interface « Spoon », permettant ainsi d’accéder au répertoire pour récupérer ou déposer des jobs et des transformations.


Talend Cloud offre une approche plus en accord avec le travail collaboratif actuel :
- Stockage centralisé et gestion des versions via Git
- Travail en équipe sur les mêmes projets ETL avec un contrôle précis des modifications
- Attribution de permissions pour sécuriser et structurer le travail collaboratif
- Gestion et résolution des conflits dans les projets et les flux
Comparaison des consoles d’administration
L’User Console (PUC) et Talend Management Console (TMC) sont les consoles web d’administration respectives de Pentaho et Talend. Elles permettent de gérer divers aspects des plateformes, allant de la gestion des utilisateurs à l’exécution et la supervision des tâches ETL.
La PUC détient des fonctionnalités principalement BI et une partie pour l’ETL, elle offre :
- Accès au référentiel centralisé : gestion et organisation des jobs ETL et des rapports BI.
- Planificateur (scheduler) : création et gestion des tâches planifiées pour l’ETL et la BI.
- Gestion des utilisateurs et des rôles : configuration des permissions et des groupes.
- Suivi des licences : affichage et gestion des licences actives.
- Connexion à un VFS (Virtual File System) : accès et gestion des fichiers via un système de fichiers virtuel.
- Accès à Pentaho Business Analytics (PBA) : consultation et développement de rapports et tableaux de bord interactifs.
La TMC offre plusieurs fonctionnalités essentielles :
- Gestion des utilisateurs et des rôles : création et administration des utilisateurs, groupes et permissions.
- Gestion des accès : contrôle des droits d’accès aux différentes applications Talend.
- Gestion des projets : centralisation et suivi des développements ETL.
- Suivi des licences : vérification et gestion des licences disponibles sur la plateforme.
- Supervision et planification des flux :
- Surveillance des exécutions ETL
- Planification des flux
- Gestion des logs.
- Déploiement multi-environnements : promotion des projets entre environnements (ex : Recette ➝ Production).
- Intégration avec Git : Déclaration des repositories Git associés aux projets.
- Exécution des flux ETL : création et gestion de moteurs distants pour exécuter les jobs.
CONCLUSION DE L’EXPERT
Le choix entre Talend Cloud Data Integration et Pentaho Enterprise Edition dépend principalement de vos besoins et de l’orientation de vos projets.
- Si vous recherchez une solution moderne, flexible, disposant d’un grand nombre de connecteurs et d’une gestion des erreurs fine et avancée pour l’intégration et la gestion des flux de données, Talend est plus adapté. De plus, avec des licences supérieures, Talend propose des modules avancés pour le data catalog, la data quality et la gouvernance des données (stewardship), offrant ainsi une meilleure maîtrise des données tout au long de leur cycle de vie.
- Si votre priorité est d’avoir une solution facile à prendre en main, simple, avec un module de BI intégrée, et la possibilité de l’installer « Full On premise » Pentaho EE offre un écosystème solide combinant ETL et analytique, avec une approche orientée utilisateur métier et développeur ETL. De plus la plateforme peut s’intégrer facilement dans l’écosystème Hitachi. Elle peut aussi être enrichie avec des modules supplémentaires de data cataloging et de qualité des données.
Pentaho EE est un bon choix pour des workflows ETL simples ou qui ne demandent pas beaucoup de MCO. Talend est plus puissant pour des flux de données complexes et avancés, avec une connectivité étendue et une architecture plus flexible pour des environnements hybrides et cloud.
Enfin, pour les budgets plus restreints, il est intéressant de noter que Pentaho propose une version Community Edition (CE), qui se limite uniquement à l’ETL de pentaho sans le planificateur. Cette version CE reste une option supplémentaire pour des projets moins exigeants.