Data / IA
ETL vs. ELT : pourquoi un processus de post-chargement est toujours gagnant
Par La rédaction, publié le 20 février 2024
Autrefois en vogue, l’ETL laisse peu à peu la place l’ELT dans le paysage de la Data et de sa transformation. Pourquoi ? Décryptage des tenants et aboutissants de cette évolution des stratégies de gestion des données…
Par Virginie Brard, Regional Leader France et Benelux, Fivetran
Historiquement, le processus ETL (Extract-Transform-Load) était le plus logique pour la transformation des données, car les coûts de stockage des calculs et de la bande passante étaient tous deux élevés. Transformer les données avant de les charger dans un data warehouse permettait de réduire ces deux coûts. Cependant, au cours de la dernière décennie, les data warehouse en cloud, tels que Snowflake, Amazon Redshift et Google BigQuery, sont devenus omniprésents, réduisant les coûts de stockage et augmentant la puissance de traitement de manière exponentielle.
Le stockage des données brutes dans le data warehouse n’est donc plus une préoccupation majeure et il est possible de transformer les données après leur chargement, plutôt qu’avant leur chargement. Connu sous le nom d’ELT (Extract-Load-Transform), ce processus de transformation des données après chargement présente un certain nombre d’avantages par rapport à l’ETL traditionnel.
Des temps de transformation plus rapides
Dans une enquête, les professionnels des données ont indiqué qu’ils consacraient en moyenne 45 % de leur temps à préparer les données (chargement et nettoyage) avant de pouvoir les utiliser pour développer des modèles et des visualisations. Non seulement cela demande énormément de temps, d’organisation et de ressources aux ingénieurs de l’équipe de données, mais cela signifie également qu’il faut plus de temps pour tirer profit des données.
L’ELT peut aider les entreprises à devenir plus efficaces dans leurs processus de données et à réduire le temps nécessaire à la transformation des données en les transformant dans un data warehouse dans le cloud après leur chargement. Parmi les gains d’efficacité réalisés :
>> Temps de chargement plus rapide : comme l’ETL utilise un serveur de traitement et un système secondaire, le chargement des données dans le système de destination prend plus de temps. Avec l’ELT, le processus de chargement s’effectue directement des sources de données vers le système de destination.
>> Des temps de transformation plus rapides : dans l’ETL, le temps de transformation est généralement plus lent et dépend de la taille de l’ensemble des données. La transformation d’un grand ensemble de données peut prendre beaucoup de temps. Avec l’ELT, celle-ci est plus rapide, en particulier pour les grands ensembles de données, car elles sont chargées directement dans un système de destination et transformées en parallèle.
>> Des délais d’exécution plus courts et moins de demandes de la part des ingénieurs : comme les analystes peuvent effectuer des transformations dans l’environnement du data warehouse sans avoir besoin de faire appel à des ingénieurs en données, les délais d’exécution de tous les projets d’analyse sont raccourcis, permettant d’obtenir plus rapidement des informations.
À LIRE AUSSI :
Accès permanent aux données brutes
L’une des principales différences entre l’ETL et l’ELT est l’endroit où les données brutes sont stockées. Dans l’ETL, les données brutes restent stockées dans le système de production d’où elles proviennent. Ces dernières copiées à partir de cette source de production sont ensuite transformées d’un schéma normalisé en un schéma dimensionnel.
Ainsi, les données chargées dans le système de destination ne sont plus les mêmes que les données brutes initialement copiées à partir du système de production. Dans les ELT, les données brutes du système de production sont copiées et chargées directement dans le système de destination avant d’être transformées. Ceci est important pour un certain nombre de raisons :
>> Une source de données vérifiables : le fait que les données brutes soient stockées dans le système de destination constitue une source de données vérifiables. Il est parfois impossible de recharger les données brutes originales à partir du système de production parce qu’elles n’existent plus.
>> Réduction du temps nécessaire à l’exploitation des données pour obtenir des informations : les professionnels peuvent exploiter les données brutes pour obtenir des informations supplémentaires au fur et à mesure des besoins, sans avoir à les recharger à chaque fois.
>> Élimination de la nécessité de réapprovisionner les données : dans certains cas, si une transformation s’avère inadéquate, les données brutes devront être retransformées. Dans l’ETL, la source de données brutes doit d’abord être rechargée (en supposant qu’elle soit toujours disponible) dans le système secondaire, puis retransformée. Dans le cas de l’ELT, les données brutes sont stockées dans le système de destination, de sorte qu’il n’est pas nécessaire de les recharger et qu’elles peuvent être transformées à nouveau immédiatement, représentant un gain de temps considérable.
Une plus grande flexibilité
L’un des aspects de l’analyse des données est qu’il est souvent nécessaire d’exploiter la même source de données à des fins différentes. Cependant, dans le cas de l’ETL, lorsque les besoins en matière de requêtes changent, il est crucial de reconstruire les pipelines d’ETL. Cela peut être coûteux, prendre du temps et nécessiter une expertise en ingénierie des données.
Avec l’ELT, les données brutes étant déjà chargées dans le système de destination, un data analyst peut créer les requêtes en temps réel sans ressources techniques. Cette économie de temps et de coûts de réingénierie donne ainsi plus de flexibilité pour interroger les données brutes autant de fois voulu.
En outre, avec le processus ELT, les pipelines de données peuvent être personnalisés et automatisés, ce qui réduit le temps et la facilité de maintenance. De plus, l’ensemble du processus, de l’extraction à la transformation en passant par le chargement, peut d’ailleurs être réalisé par un data analyst plutôt que par un ingénieur.
ELT est l’avenir des données
L’ELT simplifie l’intégration des données, réduit les taux d’échec, permet une mise à l’échelle flexible et déplace le processus de transformation vers le data warehouse, où il est possible d’appliquer des compétences telles que le langage SQL pour réaliser la transformation des données. L’ELT est un processus de pipeline de données plus simple, plus rapide et plus abordable – et la meilleure option pour la grande majorité des entreprises qui cherchent à obtenir plus rapidement des informations précieuses et exploitables à partir de leurs données.
Le passage à l’ELT offre des avantages significatifs par rapport à l’ETL traditionnel. Avec des temps de transformation plus rapides, un accès permanent aux données brutes et une plus grande flexibilité dans les requêtes, l’ELT représente l’avenir des pipelines de données, offrant simplicité, rapidité et rentabilité pour les entreprises.
À LIRE AUSSI :
À LIRE AUSSI :