Amadeus migre dans le cloud Azure en remplaçant ses data lakes par un data mesh

Cloud

Amadeus remplace des data lakes par un “Data Mesh” sécurisé

Par Alain Clapaud, publié le 04 mai 2023

Si Amadeus a bâti toute sa stratégie data sur la stack Hadoop, un récent partenariat avec Microsoft a poussé le géant du voyage à revoir son approche. Ses multiples data lakes ont fait place à un data mesh porté par le cloud Azure, un changement radical d’architecture.

Créé il y a 30 ans, Amadeus est un acteur incontournable du secteur aérien et, plus largement, du secteur du voyage. Jusqu’à 800 millions de requêtes convergent chaque jour sur ses serveurs, soit 100 000 transactions par seconde. Cette intense activité a amené l’entreprise à stocker 10 Po de données pour délivrer des services analytiques à ses clients. Ces données étaient initialement stockées dans le datacenter historique de l’entreprise en Allemagne sur quatre clusters Hadoop de production et quatre autres clusters dédiés au développement.

Tout change en février 2021 : Amadeus signe alors un partenariat stratégique avec Microsoft afin de migrer son IT vers le cloud Azure. C’est par camion que ces 10 Po de données sont transférés entre son datacenter historique et celui du cloud provider. Et l’opération ne se traduit pas seulement, pour le volet data, par un « lift and shift » de l’architecture Hadoop, mais aboutit bel et bien au passage à un big data de nouvelle génération, un data mesh. Plutôt que d’être concentrée dans un ou plusieurs data lakes, l’information est désormais distribuée sur de multiples nœuds. Le data mesh assure la gestion de cette donnée décentralisée et une gouvernance fédérée qui doit faciliter l’interopérabilité des applications.

Pour concevoir sa nouvelle architecture, Amadeus applique le framework Enterprise Scale Analytics de Microsoft : chaque nœud du data mesh, baptisé Data Domain Métier, correspond à une data landing zone Azure. Et un nœud central de data management est connecté à tous les autres afin de piloter le data mesh. « Nous avons fait correspondre le concept de data landing zone avec les domaines métiers », commente Damien Claveau, data platforms operations lead engineer chez Amadeus. « Nous en avons donc une dizaine, comme par exemple les aéroports, les compagnies aériennes, l’hôtellerie, etc. Ces data landing zones sont autonomes sur le plan réseau : elles disposent d’un virtual network qui propose un peering avec les autres landing zones. »

7 000 développeurs travaillent pour le leader mondial des solutions informatiques pour l’industrie du voyage Amadeus, dont 250 sur les données dont l’historique atteint aujourd’hui 10 Po.

Cette architecture diffère radicalement du « hub and spoke » classique où toutes les sources de données convergent en un même point. Cette approche maillée rend les communications et les routages de données bien plus efficaces.

Une architecture décentralisée jusque sur le cloud des clients

La plupart des applications générant des données sont des systèmes transactionnels en production partout dans le monde, et le data mesh doit pouvoir être déployé au plus près des clients. Une data landing zone de type hôtellerie ou airline peut ainsi avoir plusieurs instances, une dans chaque région géographique. « Cette approche lève le challenge de la conformité avec les régulations locales. Ainsi, les données des citoyens d’une zone restent sur leur sol lorsque la réglementation l’exige », souligne Damien Claveau.

Damien Claveau,
Data Platforms Operations Lead Engineer chez Amadeus


« Le data mesh a favorisé la migration de l’analytique vers le cloud et créé de nouvelles applications pour susciter de nouveaux usages. »

De même, pour amener les données au plus près de ses clients et de leurs cloud providers respectifs, Amadeus a recours à des technologies additionnelles de type Snowflake. « Snowflake permet de déployer des data warehouses pré-peuplés avec des données et des modèles Amadeus sur des fournisseurs cloud qui ne sont pas partenaires Amadeus ou des régions où nous n’avons pas de data landing zone. »

Pour contrôler cette architecture ultra décentralisée, le control plane, véritable tour de contrôle de l’architecture mesh, offre un catalogue de l’ensemble des datasets disponibles, avec l’ensemble de leurs métadonnées. « Nous utilisons le catalogue de Collibra pour créer les datasets, définir leurs propriétaires, le domaine métier, le type de données », détaille Yan Morvan, cloud data platform principal engineer chez Amadeus. « Nous classifions les données suivant leur sensibilité. Pour répondre au RGPD, nous avons mis en place une classification à trois niveaux : vert, orange et rouge, selon la présence de données personnelles dans le dataset. Beaucoup d’applications peuvent donc librement traiter des données de niveau vert car elles n’accèdent pas à des données personnelles. Sinon, la plateforme met en œuvre un framework d’anonymisation qui permet d’encrypter ou de masquer certains champs de données. »

Par ailleurs, un contrôle d’accès de type « least privilege » a été mis en place. Il s’appuie sur les access control lists d’Azure placées au niveau des conteneurs.

L’automatisation, la clé du succès d’une approche data mesh

Pour qu’une telle architecture puisse fonctionner au quotidien, l’automatisation doit être la règle.

L’équipe projet s’est appuyée sur le kit de développement de Collibra pour implémenter différents workflows, dont ceux qui accompagnent la déclaration d’un dataset, d’une nouvelle application consommatrice de données, d’une nouvelle équipe, etc. « Les workflows Collibra sollicitent différents niveaux d’approbation et déclenchent des scripts Python exécutés dans des Azure Functions (NDLR: la solution FaaS serverless d’Azure) », explique Yan Morvan. « Ces scripts réalisent les opérations au niveau du data plane via les API d’Azure, créent les conteneurs et toutes leurs métadonnées, et configurent les droits au niveau du stockage. »

À LIRE AUSSI :


Enfin, pour le volet « infrastructure as code » de l’architecture, Amadeus met en œuvre les technologies Azure Bicep et Terraform. Le monitoring est assuré via une stack Azure Monitor, Prometeus et Thanos.

La mise en place du data mesh a représenté un an et demi d’efforts, et s’il a fallu trouver des compromis et s’adapter aux services du cloud provider, nul ne regrette aujourd’hui ce bond en avant : « Nous avons très vite oublié les clusters Hadoop, et les data lakes, c’est déjà du passé ! », conclut Damien Claveau.


Des analytics à multiples formes

Les applications analytiques portées par cette architecture, les « data products » dans la terminologie d’un data mesh, peuvent avoir différentes formes : il peut s’agir de simples rapports de type Power BI ou Qlik, de services data délivrés par Azure, mais aussi par Databricks, Azure ML, Azure Synapse ou Snowflake.
« Pour ces produits, nous avons mis en œuvre le concept de workspace applicatif. Ils sont alors indépendants les uns des autres et appartiennent soit à une application, soit à une équipe de développement pour créer un data product comme elle l’entend. »
Des centaines de data products sont ainsi proposés par Amadeus à ses clients.


LE PROJET EN CHIFFRES

18 mois de projet

10 data landing zones métiers

60 à 100 workspaces applicatifs en production


L’ENTREPRISE AMADEUS

Activité : Industrie du voyage
Effectif : 16 400 collaborateurs
CA : 2,6 Md€ (2021)


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights