Découvrez Azure Data Factory (ADF), un service cloud développé par Microsoft, simple à utiliser et scalable, conçu pour l’intégration, l’extraction, la transformation et le chargement (ETL/ELT) de données à grande échelle. Cette solution cloud permet aux entreprises de moderniser leur infrastructure data et d’optimiser leur transformation digitale.

Fonctionnalités d'Azure Data Factory

Azure Data Factory est une plateforme d’intégration de données qui facilite l’orchestration des mouvements et transformations entre diverses sources et ressources de calcul dans le cloud Azure. Elle s’adresse aussi bien aux analystes qu’aux développeurs, offrant une interface visuelle intuitive qui simplifie la conception de pipelines de données, même pour les utilisateurs moins expérimentés.

Azure Data Factory succède à SQL Server Integration Services (SSIS), orienté on-premise, en proposant une solution hybride et cloud-native adaptée aux projets modernes de digitalisation et de gestion agile des données.

L’architecture d’Azure Data Factory repose sur des composants clés permettant de concevoir, orchestrer et exécuter des pipelines de données.

Composants d'Azure Data Factory

Pipelines

Un pipeline regroupe un ensemble d’activités qui, ensemble, réalisent une tâche complète d’extraction, transformation et chargement (ETL/ELT). Ces tâches peuvent être automatisées, lancées manuellement ou déclenchées par des événements spécifiques. Le pipeline permet de gérer l’ordre d’exécution des activités selon leurs dépendances, garantissant un workflow fluide même avec des volumes importants de données.

Activités

Les activités dans Azure Data Factory se répartissent en trois catégories principales :

  • Déplacement des données : copie des données d’une source vers une destination via l’activité Copy Data.
  • Transformation des données : utilisation des Data Flows pour transformer les données sans coder, grâce à une interface visuelle.
  • Contrôle des flux : gestion du workflow avec des activités comme Filter, Switch, ForEach permettant l’exécution parallèle ou séquentielle des tâches.

Ces activités peuvent s’enchaîner en fonction des dépendances, optimisant les performances des pipelines.

Azure Data Factory

Datasets

Un dataset est une définition descriptive qui représente une source ou une destination de données. Il précise où et comment accéder aux données (format, emplacement, schéma). Azure Data Factory supporte une grande variété de datasets, couvrant des formats et services divers :

  • Stockages Azure : Blob Storage, Data Lake Storage Gen2, File Storage, SQL Database
  • Bases de données : MariaDB, MySQL, PostgreSQL, MongoDB
  • Fichiers : Amazon S3, FTP, SFTP
  • Protocoles et NoSQL : HTTP, MongoDB, etc.
  • Applications SaaS : intégration directe avec Jira, Salesforce, Shopify, PayPal, etc.

Chaque dataset est associé à un service lié qui fournit les informations de connexion (URL, identifiants, paramètres de sécurité).

Data flows

Les Data Flows permettent de concevoir des flux logiques complexes de transformation des données à grande échelle, sans nécessiter de code. Basée sur un canevas intuitif, l’interface offre une bibliothèque riche de transformations (agrégations, pivots, jointures, filtres).

Azure Data Factory

Le moteur Spark d’Azure Data Factory gère l’exécution des Data Flows en mode distribué et parallèle, assurant haute performance et scalabilité. Les fonctionnalités avancées incluent la gestion du partitionnement, la détection et l’adaptation aux changements de schéma, ainsi que la mise en cache pour optimiser les traitements.

Triggers

Un trigger définit le moment d’exécution d’un pipeline. Il peut être configuré selon différents types :

  • Planifié (scheduled) : exécution à intervalles réguliers (ex. tous les jours à 2h).
  • Fenêtre glissante (tumbling window) : séries de fenêtres temporelles consécutives pour un traitement segmenté.
  • Basé sur événements (event-based) : déclenchement par des événements comme l’arrivée d’un fichier dans un stockage Azure Blob.

Les triggers peuvent être activés/désactivés et doivent être publiés pour être opérationnels. Notez cependant une limite actuelle sur la granularité fine des horaires planifiés.

Azure Data Factory

Monitoring

Le suivi des pipelines est essentiel pour garantir fiabilité et performance. Le tableau de bord d’Azure Data Factory offre une vue complète de l’état des pipelines : statut, durée, paramètres, possibilité de relance.

Azure Data Factory

 Il permet aussi d’observer les triggers, les runtimes d’intégration, et de configurer des alertes pour être notifié en cas d’échec ou d’événement critique.

Azure Data Factory

Azure Data Factory

Avantages d'Azure Data Factory

  • Large intégration avec de nombreuses sources de données, bases, fichiers, et applications SaaS, facilitant la collecte et l’orchestration des données.
  • Interface visuelle intuitive permettant de concevoir des pipelines ETL/ELT sans programmation.
  • Scalabilité assurée par le moteur Spark, capable de gérer de très grands volumes de données en traitement parallèle.
  • Automatisation avancée grâce aux triggers et à un monitoring efficace, réduisant les interventions manuelles.
  • Solution cloud économique avec tarification à la consommation, éliminant les coûts d’infrastructure physique.
  • Compatibilité native avec l’écosystème Azure (Azure Databricks, Azure Synapse Analytics, etc.) pour une transformation digitale fluide.
  • Sécurité et gouvernance adaptées aux exigences des entreprises modernes et des environnements hybrides.

FAQ – Questions fréquentes sur Azure Data Factory

Qu’est-ce qu’Azure Data Factory ?

Azure Data Factory est un service cloud d’intégration et d’orchestration des données, permettant de déplacer, transformer et charger des données depuis diverses sources vers des environnements cloud, notamment Azure.

Quels types de sources de données sont compatibles ?

ADF supporte un large éventail : bases de données relationnelles (SQL, MySQL, PostgreSQL), stockages cloud (Azure Blob, Amazon S3), services SaaS (Salesforce, Shopify), protocoles HTTP, NoSQL, etc.

Quelle différence entre ETL et ELT dans Azure Data Factory ?

ETL (Extract, Transform, Load) transforme les données avant leur chargement. ELT charge d’abord les données, puis effectue la transformation dans la destination. Azure Data Factory permet les deux approches.

Comment fonctionne le monitoring dans Azure Data Factory ?

Le monitoring fournit une vue en temps réel des pipelines, leur statut, les triggers, et permet d’envoyer des alertes pour anticiper ou résoudre les problèmes rapidement.

Peut-on utiliser Azure Data Factory sans compétences en codage ?

Oui, grâce à son interface visuelle et ses activités prêtes à l’emploi, les utilisateurs peuvent créer et gérer des pipelines sans écrire de code.

Comment Azure Data Factory s’intègre-t-il avec les autres services Azure ?

ADF est conçu pour fonctionner parfaitement avec Azure Databricks, Azure Synapse Analytics, Azure Blob Storage, et d’autres services, facilitant ainsi l’orchestration d’une infrastructure data complète et agile.

Retour aux éditeurs "Intégration et flux de données"

Vous souhaitez bénéficier d'experts, de développeurs ou d'une formation sur Azure Data Factory ? Rendez vous sur la page Contact

Des Experts formateurs certifiés Azure Data Factory à Rennes, Nantes, Paris, Montpellier, Nice, Angers, Le Mans, Niort, Laval, Lyon, Grenoble, Saint-Etienne, Bordeaux, Toulouse, La Rochelle, Agen, Bayonne, Sophia Antipolis, Béziers, Brest...

Des Experts formateurs certifiés Azure Data Factory dans les Pays de Loire, Occitanie, Bretagne, Région Parisienne, Poitou-Charentes, Ile de France, Aquitaine, Midi-Pyrénées, Rhône, Ain, Isère, Loire, Languedoc-Roussillon et Provence-Alpes-Côte d'Azur.