Infrastructure de Talend Data Fabric
L’infrastructure de Talend Data Fabric est composée de plusieurs applications qui peuvent communiquer entre elles. On retrouve Talend Data Preparation, Talend Data Stewardship, Talend Data Inventory, Talend API Tester, Talend API Designer et Talend Pipeline Designer. Toutes ces applications sont gérées grâce à une console d’administration : Talend Management Console, et sont hébergées sur AWS ou Microsoft Azure en fonction des préférences des clients.
De plus, le Studio Talend qui permet une exécution locale des flux de données permet aux utilisateurs de concevoir des flux d’intégration et les publier sur Talend Data Fabric.
Ces applications facilitent la collecte, la transformation, le nettoyage et le partage des données entre vos collaborateurs. Ces actions peuvent être 100% automatisées, mais vous pouvez également inclure des actions de data steward, notamment grâce à Talend Data Stewardship.
Une des questions souvent rencontrée par nos commerciaux porte sur le stockage des données par ces différentes applications Talend. Quelles sont les données stockées par la plateforme cloud de Talend et comment sont-elles protégées ?
Talend utilise les meilleures pratiques de sécurité et de confidentialité pour protéger à la fois la plateforme Talend et Talend en tant qu’entreprise. Talend met en œuvre une combinaison de politiques, de procédures et de technologies pour assurer la confidentialité et la sécurité des données clients.
Examinons l’architecture de Talend, ainsi que les politiques et procédures liées au réseau, à l’infrastructure, à la plate-forme et à la sécurité des données.
Il est important de noter que Talend n’est pas une plateforme de stockage de données.
Stockage des données
Talend travaille avec deux types généraux de données : les données que Talend collecte et les données que les clients traitent avec les différents logiciels.
Les données que Talend collecte
Talend ne collecte que les informations client nécessaires pour fournir des services ou gérer les comptes clients via des applications cloud. Toutes les informations personnelles collectées (par exemple, le nom, le pays et l’adresse e-mail) sont protégées par un chiffrement au repos via AES-256 et en transit via HTTPS TLS 1.2.
Les informations confidentielles telles que les mots de passe, les clés et les certificats sont gérées par des technologies et des produits tiers. Les informations de facturation ne sont pas stockées dans Talend Data Fabric. Talend utilise des fournisseurs tiers pour collecter et gérer les informations de paiement.
Les jeux de données importés dans Data Inventory sont également stockés dans Talend. Il n’y a pas d’alternative hybride.
Données que les clients traitent avec Talend Data Fabric
Que le client utilise un moteur distant ou un moteur cloud, ses ensembles de données restent dans les systèmes et les magasins de données qu’il gère. Les métadonnées, projets, tâches Talend, artefacts et autres objets stockés par Talend pour la prestation de services ou pour des raisons de sécurité sont isolés à l’aide d’un schéma spécifique au tenant et de clés de chiffrement de données spécifiques au tenant.
Réseau
Talend Data Fabric peut nécessiter une interopérabilité avec des solutions tierces externes pour fonctionner correctement et fournir des services. Toute communication entre Talend Data Fabric et ces solutions externes doit être autorisée et initiée par Talend Data Fabric. Une solution externe ne peut pas communiquer avec Talend Data Fabric à moins que Talend Data Fabric n’initie la communication
Les réseaux et systèmes de Talend sont protégés par des pare-feu réseau et applicatif, des mécanismes de visibilité et des stratégies de micro-segmentation.
Flux de données avec le moteur cloud
Les types de données qui peuvent être échangées entre Talend Studio et Talend Data Fabric incluent :
- Les binaires d’artefacts de tâches
- Les métadonnées des artefacts de tâches (telles que les variables contextuelles et les paramètres)
- Les définitions de Talend API Designer
Les informations d’identification de l’utilisateur (identifiant et mot de passe générés par les jetons TMC ou API) sont nécessaires pour autoriser l’échange.
Flux de données avec le moteur distant
Talend Data Fabric n’initie pas de connexion au moteur distant. Le moteur distant initie toujours une connexion sortante vers Talend. Une fois la connexion établie, toutes les données sont transmises sous forme chiffrées via le protocole HTTPS.
En 2022, Talend déploiera progressivement la prise en charge des connexions PrivateLink dans AWS et Azure entre Talend Data Fabric et le moteur distant, ajoutant une couche de sécurité supplémentaire en garantissant que le trafic n’est pas exposé à l’Internet public. Les endpoints privés Talend sont disponibles sur AWS et Azure.
Voici les types de données qui peuvent être échangées entre un moteur distant et Talend :
- Informations d’état et métriques
- Commandes de cycle de vie
- Métadonnées des artefacts de tâches
- Journaux de tâches (facultatif)
- Binaires d’artefacts de tâches
Infrastructure et hébergement
Nous avons vu que les différentes applications Talend Data Fabric sont hébergées sur Amazon Web Services ou Microsoft Azure. Elles héritent par défaut des plus hauts niveaux de sécurités connus fournis par ces hébergeurs.
Cela garantit un haut niveau de performance et d’adaptabilité au changement. Ces éditeurs fournissent également un haut niveau de sécurité physique au niveau de leur centre de données. Ils mettent à disposition des marketplaces, utiles notamment lorsqu’un moteur distant doit être installé sur ces solutions de VPC.
Protection et surveillance des charges de travail sur le cloud Talend
Talend utilise une combinaison de services de sécurité de fournisseurs tiers pour protéger Talend Data Fabric.
Les experts en sécurité utilisent des outils d’analyse externes pour sécuriser, configurer et corriger les systèmes et les conteneurs conformément aux meilleures pratiques et recommandations de Talend.
Talend utilise le NIST Cybersecurity Framework dans le cadre de sa stratégie de sécurité globale.
Leurs déploiements s’appuient sur les capacités de segmentation intégrées des groupes de sécurité AWS EC2 et des groupes de sécurité réseau Microsoft Azure Network Security pour restreindre la communication entre les ressources.
Le périmètre de sécurité de Talend Data Fabric est composé de (mais non limité à) :
- Pare-feu d’application Web (WAF) – valide, surveille et filtre tout le trafic des applications Web et des API.
- Un système de détection d’intrusion (IDS) et un système de prévention d’intrusion (IPS) basés sur le réseau – alerte sur les activités malveillantes et protège contre les menaces telles que les attaques de type « zero-day ».
- Système de gestion des informations et des événements de sécurité (SIEM) – surveillance et observabilité de l’état et des performances du système et détection des activités malveillantes.
Gestion des vulnérabilités
Toutes les applications sont testées au moins deux fois par an par les experts en sécurité de Talend DAST (Dynamic Application Security Testing) et Penetration Testing. Talend utilise également des services de sécurité internes et externes pour effectuer des tests d’intrusion externes.
Les tests d’intrusion externes sont programmés deux fois par an avant les nouvelles versions et les déploiements de Talend Data Fabric.
Les tests d’intrusion couvrent un large éventail d’aspects de la sécurité des applications et prennent en compte les meilleures pratiques Web modernes.
Toutes les vulnérabilités découvertes sont enregistrées par le service d’assurance qualité de Talend et analysées par le service de sécurité informatique de Talend, qui maintient, surveille et teste les correctifs.
Talend suit l’architecture du Security Content Automation Protocol (SCAP). Les vulnérabilités sont évaluées à l’aide de l’équation CVSS (Common Vulnerability Scoring System) v3.0. Les vulnérabilités sont traitées en fonction de leur gravité et de leur impact potentiel sur l’infrastructure.
Les rapports de tests de pénétration tiers sont disponibles sur demande, à la discrétion de Talend.
Sauvegardes
Talend utilise une variété de services de stockage AWS et Azure. Tous les services de stockage sont régulièrement sauvegardés et mis en miroir automatiquement sur des sites distants. La plupart des sauvegardes sont effectuées toutes les heures. La progression de la sauvegarde est surveillée.
Les vérifications de l’intégrité sont généralement effectuées une semaine après un nouveau déploiement en production.
Talend maintient un plan de reprise après sinistre et de continuité d’activité (DR/BC) qui est revu, mis à jour et testé au moins une fois par an.
Talend opère dans plusieurs régions AWS et Azure dans le monde. L’infrastructure redondante comprend des centres de données centraux et de reprise après sinistre dans chaque région Talend Cloud et plusieurs zones de disponibilité (AZ) dans chaque région.
Talend est en contact étroit avec les deux fournisseurs et surveillent attentivement leurs niveaux de service pour nous assurer qu’ils répondent à leurs exigences. Le dernier temps de fonctionnement par région est disponible sur https://trust.talend.com/
Les équipes R&D et opérationnelles de Talend sont réparties sur plusieurs sites géographiques : Etats-Unis, Europe et Asie. Chaque fonction et tâche peut être remplie par au moins deux personnes.
Reprise après sinistre et continuité d'activité
Talend est conforme à la norme SOC 2 Type 2 et peut signer des accords d’association commerciale HIPAA (Health Insurance Portability and Accountability) Business Associate Agreements (BAA).
Talend utilise le programme STAR (Security Trust Assurance and Risk) de la Cloud Security Alliance (CSA) pour évaluer leurs pratiques de sécurité et valider la posture de sécurité de leurs offres de cloud computing.
Une liste complète des certifications de sécurité et de conformité à la confidentialité est disponible sur https://www.talend.com/security/