Nous l'avons vu dans notre précédent article, les nouvelles technologies et les nouvelles façons de penser la donnée et sa représentation sont venues profondément modifier l'architecture des Systèmes d'Information.
Les solutions d'intégration de données sont passées de l'homme-orchestre au chef d'orchestre.
Mais pour jouer quelle partition ?
Celle d'un quatuor bien réglé ? Ou celle d'un orchestre de chambre, faisant jouer une sélection d'instruments limitée ?
Bien au contraire, la vision ELT, appelée également "la délégation de transformations", se pose à nouveau en alternative agile et pertinente pour traiter la diversité des données et des architectures.
Elle rend possible une œuvre plus sonore et plus riche, une symphonie savamment orchestrée.
Une symphonie puissante, performante, capable de coordonner dans le temps une quantité d'instruments illimitée.
C'est ce que nous allons aborder dans cet article: l'ELT, véritable réponse aux enjeux de performance et d'industrialisation des flux.
Un besoin de performance accrue
Ce n'est pas une découverte, la performance est encore plus un niveau d'exigence qu'elle ne l'était à la genèse de l'ETL.
S'il fallait autrefois faire tenir les extractions de données dans une fenêtre de production de quelques heures à un rythme hebdomadaire, voire quotidien pour les plus ambitieux d'entre nous, il est désormais impensable pour certaines organisations d'avoir un délai de plus de quelques secondes, si ce n'est quelques millisecondes entre deux extractions de données !
Le monde change, et ce qui était un luxe autrefois est regardé aujourd'hui comme un bien de première nécessité.
Toute ressemblance avec un autre domaine de la vie quotidienne serait totalement fortuite. Quoique…
Dans le même temps, il n'est pas inutile de rappeler l'explosion phénoménale du volume de données à disposition des organisations.
Selon IDC, dont les données sont mises en forme par Statista (article Journal Du Net)
"Le volume mondial de données sera multiplié encore par 3,7 entre 2020 et 2025, puis par 3,5 tous les cinq ans jusqu'en 2035, pour atteindre la somme vertigineuse de 2 142 zettaoctets"
L'essor du Big Data n'est que le début de cette révolution dans les technologies et des volumes de données.
Ce que nous a montré cette nouvelle vague technologique c'est qu'une puissance de calcul qui était auparavant réservée à la recherche scientifique ou aux projets classés "top secret", est désormais à la portée de la plus petite des organisations.
L'ETL traditionnel peut faire pâle figure devant un cluster Spark ou une utilisation de Google Big Query.
La performance est au cœur même de la révolution du Big Data.
Dans ce contexte, seule une utilisation intelligente des fonctionnalités natives de chaque plateforme est en mesure d'apporter satisfaction en termes de performances.
La délégation de transformation (ELT) est donc, comme nous l'avions expliqué, non seulement une alternative, mais une nécessité.
Aucun ETL traditionnel aujourd'hui ne prétend remplacer un cluster Spark ou effectuer la transformation à la place de la base de données cible, qu'il s'agisse de Google BigQuery ou de toute autre technologie.
La performance doit être sûre et immédiate, et au plus près des données.
Il n'est plus envisageable de déplacer la donnée dans un moteur, car les analyses de données se font sur des téraoctets, voire des pétaoctets de données, et parfois sur de la donnée brute, non agrégée, voire non structurée, ce qui renforce la nécessite de vélocité dans les traitements.
Une maîtrise indispensable des coûts du cloud
Maintenant que cela est posé, il faut ajouter un petit bémol à cette symphonie : la performance, oui, mais pas à n'importe quel prix.
Elle est bien loin l'époque où les vannes budgétaires étaient grandes ouvertes, lorsque l'investissement était une mission principale des DSI et que la seule limite était celle de la loi de Moore !
On a à un moment cru que le Big Data serait une porte de sortie, un prétexte utile à toujours plus d'investissements pharaoniques. Mais la réalité budgétaire a hélas calmé les ardeurs des plus affamés de technologies.
Le Cloud a un temps semblé une idée géniale pour maîtriser les coûts, ou bien simplement les déplacer d'une ligne budgétaire à une autre. Il y a débat.
Cependant, même le son doux et léger de la flute enchantée du Cloud n'évite pas la nécessité de maîtriser la partition. Au contraire, la simplicité du modèle, où il ne suffit que d'une réglette pour ajuster la puissance, peut vite conduire à des dérapages budgétaires.
Selon le Gartner (Janvier 2020), "En 2024, presque toute les applications traditionnelles migrées dans le Cloud en tant que service (infrastructure as a service / IaaS) vont nécessiter une optimisation des coûts pour être réellement efficaces et rentables."
Pour que le modèle fonctionne, il faut maîtriser les coûts, et donc les usages.
Et c'est là que la délégation de transformation, intelligemment pensée, peut apporter son lot de solutions.
La maîtrise des coûts du Cloud repose en effet sur deux facteurs : dompter et réguler les usages.
Les technologies de données cloud possèdent chacune leur mode de facturation.
Dompter l'usage consistera à utiliser chaque fonctionnalité à bon escient et de la bonne manière, de façon à réduire l'usage à son strict minimum, et surtout éviter que cela dérape. Plus courtement : faire autant, mais en utilisant moins ou mieux, et sans surprises.
Réguler l'usage consistera à libérer les ressources en fonction de l'utilisation réelle. Juste au bon moment, pas plus. L'architecture "serverless" du Cloud se prête à ce type de régulation, encore faut-il que la solution d'intégration de données puisse respecter ce type d'architecture, ce qui est loin d'être facile lorsqu'on utilise un moteur qui tourne en permanence.
Là encore l'approche par délégation de transformation est clairement une alternative intéressante.
Comme un chef d'orchestre, elle ne fait jouer chaque instrument qu'au moment nécessaire, et elle règle les nuances et les harmonies, cadence le rythme et les moments de silence.
Nativement serverless, elle n'a de raison d'exister que par la nécessité d'optimiser l'usage des ressources. Son challenge désormais : l'industrialisation des optimisations.
Big Data, de l'artisanat à l'industrialisation
L'industrialisation… C'est un concept qui a été bien mal mené ces derniers temps.
Mais c'était en fait une nécessité.
Le big data, le machine learning, l'IA, ont commencé par des phases d'exploration, pour ne pas dire d'apprivoisement.
Il fallait être d'une nature aventurière pour comprendre et tirer parti de ces technologies.
Le démarrage s'est fait par la découverte, par des phases de tests et essais.
Et, comme dans tout processus d'innovation, l'industrialisation n'avait tout simplement pas encore sa place.
Le démarrage en mode "artisanal" était tout à fait approprié et il a porté des fruits.
Il fallait accorder les instruments.
Ces technologies ont progressivement trouvé leur place dans le paysage des DSI. Même si certains sont encore en phase expérimentale, d'autres les ont domptées, et d'autres sont passés à autre chose...
Pour ceux désormais qui les ont intégrées, il est temps de passer à la phase industrielle, de passer du concept à la mise en production.
Et c'est là que l'outil d'intégration de données doit jouer sa partition.
Le challenge n'est plus le moteur mais l'industrialisation des flux de transformation et des algorithmes.
Lorsque la partition est écrite, il faut la répandre, la démocratiser, et pour les artistes de la donnée, la mettre en musique et la répéter.
La délégation de transformation est le mode de fonctionnement privilégié pour ces plateformes.
Cependant cela ne se résume pas, comme certains semblent le penser, à simplement savoir faire travailler les technologies.
Le vrai ELT automatise les tâches et accroit la productivité, la qualité et la fiabilité.
Le bon ELT des années 2020, c'est l'ELT qui industrialise, qui fait gagner du temps.
Et du temps, il en faut encore plus ! Le temps pour dessiner les nouveaux usages autour de la donnée.
Si la transformation des données était cruciale dans l'univers BI des années 90, elle l'est encore plus dans le monde du data lake!
C'est ce que nous allons approfondir dans notre prochain article : la place de la transformation dans les systèmes de gestion de la donnée.
Suite de l'article prochainement "La transformation, clé de voûte des systèmes de gestion de la donnée"
A propos de l'auteur :
Fabien BRUDER, Co-fondateur de la société Stambia depuis 2009.
Ingénieur informaticien EPITA, spécialisé en intelligence artificielle, diplômé en gestion d’entreprise à l’IAE de Paris.
Après IBS France (intégrateur) puis Sagent (éditeur), il passe 7 années chez l’éditeur Sunopsis (Oracle), en tant que consultant, directeur technique puis directeur d’agence.
Cela fait maintenant 20 ans qu'il travaille en tant qu'expert dans le domaine de l'intégration des données.