La performance de traitement des données est un élément clé des transformations numériques en cours.
Dans nos articles précédents, nous avons abordé l'importance de fonctionner en mode "Chef d'orchestre", plutôt qu'en "Homme-Orchestre".
( Lire article : La plateforme d’intégration, chef d’orchestre de l’entreprise orientée données )
Nous avons aussi démontré comment la puissance de l'ELT pouvait se comparer à une symphonie.
( Lire article : La performance et l'industrialisation, les éléments clés de la délégation des transformations )
Penchons-nous maintenant sur la transformation des données.
Ce que nous avons vécu pendant ces 20 dernières années, depuis l'émergence de la BI jusqu'aux balbutiements de l'intelligence artificielle grand public, c'est la fulgurante progression de la donnée dans l'échelle de valeurs.
Auparavant la donnée était une simple conséquence : elle était stockée parce qu'une application avait besoin de l'utiliser.
Ce qui primait, c'était la fonction métier et l'usage brut de la donnée à des fins opérationnelles. Désormais, la donnée se trouve au cœur de la stratégie des entreprises.
Cependant, des notes seules, non organisées, sur une partition ne produiront pas une mélodie. L'intelligence du musicien est nécessaire.
Les notes doivent êtres assemblées, transformées chacune par des instruments différents, produisant ensemble, par l'harmonie d'une belle agrégation, des sonorités et des nuances parfaites.
Il en va de même pour la donnée.
Une organisation optimale et des transformations bien pensées sont indispensables si nous souhaitons obtenir l'accord parfait.
De la période classique à la période blues : le foisonnement des formats de données.
Dans l'histoire de la musique, il y a eu des mouvements et des écoles de pensées.
Du côté de la modélisation des données, nous avons eu aussi notre période "classique".
Dans les années 90 et 2000, la structuration des données dans un format à deux dimensions (les tables et les tableurs Excel) a été d'une grande importance.
Pas d'analyse ni d'échange de données sans une structure de données bien pensée.
Les datawarehouses, les datamarts et les modélisations à la Ralph Kimball ont été précieux pour structurer et rationaliser l'usage des données analytiques.
Ces dernières années nous sommes allés nettement à l'opposé, en imposant de nouveaux standards d'échange et de stockage plus dé-normalisés (JSON, Avro, etc).
La donnée est devenue plus "Rock & Roll", plus libre dans son expression.
Dans certains cas, la tendance a même été de conserver la donnée brute dans son format binaire (images, vidéo, etc.).
Cela permettait premièrement de conserver le capital données sans chercher à l'analyser a priori, mais également de pouvoir l'analyser a posteriori sous sa forme la plus pure.
Ce virage vers le non structuré s'atténue peu à peu et retrouve son équilibre avec les données structurées.
Chaque approche a trouvé son usage et sa légitimité.
Les organisations ont désormais à gérer des formats de données très hétérogènes.
Pour être efficace, un développeur informatique doit jongler dans un même programme avec des données en base de données, des fichiers semi-structurés (XML ou JSON) et des services Web.
Cela implique la nécessité de savoir passer d'un format à l'autre, de mixer et croiser des données entre des formats parfois complètement opposés dans leur mode de fonctionnement et dans leur niveau de granularité.
C'est le premier lieu de transformation dans le monde "post Big Data".
Transformer les formats, avant de transformer la donnée.
Avant de jouer l'accord parfait, il faut rassembler ses idées et préparer la base de la partition. Certains musiciens arrivent à synthétiser les idées.
Pourrions-nous parler d'une période Jazz & Blues de la donnée ?
Accorder les instruments : préparer pour mieux transformer
Ceci étant posé, il n'en reste pas moins que les analystes de données qui se connectent à un data lake, se trouvent face à une montagne de données, rangées tant bien que mal dans des répertoires, plus ou moins bien nommés.
Après avoir réglé la question du format, il reste à mettre de l'ordre dans les données et les rendre compatibles entre elles du point de vue sémantique et non plus grammatical. Il faut, en quelque sorte, accorder les instruments avant de pouvoir lancer la symphonie.
Pour qu'il n'y ait pas de fausses notes, la phase de préparation des données est cruciale.
C'est l'une des phases de transformation préalable qui va permettre la première mise en conformité des données afin qu'elles soient compatibles en terme de format, de granularité, d'identifiant strict ou de règle de "matching".
Nous pouvons considérer la phase de préparation comme équivalente à la phase de création des ODS (Operational Data Store) dans les systèmes décisionnels traditionnels.
A la différence près que les sources sont désormais extrêmement variées et que les données préparées sont certainement moins structurées et structurantes que dans un ODS.
La donnée préparée doit être nettoyée, rendue propre à être croisée avec d'autres sources, puis disposée à être utilisée dans des algorithmes ou des systèmes de machine learning.
Il ne s'agit donc pas d'un simple chargement de données brutes, mais d'un reformatage et d'un premier niveau d'interprétation métier, pour rendre ces données utilisables, propres à la consommation.
Avant d'arriver à l'accord parfait, il faut également accorder ses instruments et placer les musiciens au bon endroit, les uns par rapport aux autres.
Apprendre la partition : les algorithmes d'apprentissages
Néanmoins, même une fois les instruments accordés, il n'est pas évident de jouer juste du premier coup.
Il faut apprendre la partition.
Depuis plus d'une dizaine d'années, de nombreuses entreprises ont fait l'expérience du Big Data.
Elles ont produit une quantité impressionnante d'échecs et de succès.
Elles ont appris à dompter des algorithmes tous plus complexes les uns que les autres, qu'elles ont appliqués sur des données organisées et préparées.
On l'a vu, la donnée est collectée et organisée, puis préparée.
Ensuite, elle doit passer par des phases d'apprentissage en étant intégrée dans des processus de machine learning ou deep learning propre à chaque domaine, et qui dépend aussi de la finalité que l'on souhaite voir appliqué aux données.
Enfin, une fois ces différentes étapes accomplies, de la nouvelle donnée est fournie en entrée de ces algorithmes afin de produire une analyse, des prévisions, des alertes.
Ce type de transformation était assez nouveau, mais il fait désormais partie du paysage.
Dans la donnée, l'accord parfait est désormais possible, et la partition peut se jouer à plusieurs.
De l'équipe informatique, récoltant et préparant des données, aux utilisateurs métiers, donnant du sens à leurs données, chacun trouve sa place dans cette chaîne de transformation de de la valeur.
Accord final et ouverture
Résumons.
En intégration de données, l'accord parfait s'obtient par une composition savante de transformations.
Comme dans un nouveau genre musical, il faut savoir assembler, voire synthétiser des sons de plusieurs origines.
Des données très différentes qui ne peuvent s'exprimer que par le biais d'une première étape : une mise en cohérence et un arrangement des données.
La seconde étape de transformation s'attaque au sens et non plus à la tonalité de la donnée.
Il faut préparer en rendant compatibles entre elles des données disparates, leur permettant de se donner un sens mutuel.
Enfin, il ne reste plus qu'à faire apprendre la partition en appliquant des algorithmes (machine learning, deep learning) spécifiques.
Ces trois étapes sont indispensables, pour qu'ensuite, la partition soit jouée sans fausses notes et qu'elle produise une mélodie à la fois attendue et nouvelle.
Ceci étant posé, nous conclurons par une point essentiel :
Dans ce genre musical nouveau, l'approche industrialisée de l'ELT, proposée par Stambia, est la plus appropriée pour produire l'accord parfait.
Ces trois formes de transformation (format, sens, apprentissage) sont souvent spécifiques aux plateformes employées (Hadoop, Spark, Google Biq Query, Azure Synapse, ou d'autres.) et doivent s'exécuter en utilisant toute la finesse des instruments et toute la performance proposée par ces architectures.
Déléguer l'exécution musicale à ceux qui savent le faire, en s'employant à faire jouer juste et beau, c'est la fonction même du chef d'orchestre.
C'est le rôle aussi d'une solution d'ELT : faire transformer à ceux qui savent faire et qui sont performants pour le faire, tout en maîtrisant la partition afin que la symphonie des données s'exprime dans toute sa quintessence.
A propos de l'auteur :
Fabien BRUDER, Co-fondateur de la société Stambia depuis 2009.
Ingénieur informaticien EPITA, spécialisé en intelligence artificielle, diplômé en gestion d’entreprise à l’IAE de Paris.
Après IBS France (intégrateur) puis Sagent (éditeur), il passe 7 années chez l’éditeur Sunopsis (Oracle), en tant que consultant, directeur technique puis directeur d’agence.
Cela fait maintenant 20 ans qu'il travaille en tant qu'expert dans le domaine de l'intégration des données.
La performance de traitement des données est un élément clé des transformations numériques en cours.
Dans nos articles précédents, nous avons abordé l'importance de fonctionner en mode "Chef d'orchestre", plutôt qu'en "Homme-Orchestre". Nous avons aussi démontré comment la puissance de l'ELT pouvait se comparer à une symphonie.
Penchons-nous maintenant sur la transformation des données.