Comment une plateforme de données moderne facilite la transparence des données

03 novembre 2022
  • IT
  • SAP
  • Microsoft Azure
  • données

Ces dernières années, la ‘transparence des données’ a suscité pas mal d’attention. Il n’est pas difficile de comprendre pourquoi : les données jouant un rôle décisif dans nos vies, nous exigeons de savoir d’où proviennent les informations et si nous pouvons leur faire confiance. Les organisations doivent également avoir une vue d’ensemble claire des données qu’elles collectent, non seulement pour des raisons de conformité mais aussi pour en exploiter pleinement le potentiel. C’est là qu’une plateforme de données moderne peut faire la différence. 

Le ‘principe de responsabilité’ du RGPD (article 5.2) stipule que les responsables du traitement des données “doivent être en mesure de démontrer que les données à caractère personnel sont traitées de manière transparente” à partir du point de collecte. Et ceci n’est qu’un exemple car ces dernières années, de nombreuses lois et réglementations ont été introduites dans lesquelles la transparence des données joue un rôle clé.

Mais la transparence des données va au-delà des questions juridiques. Savoir quelles données sont disponibles et dans quelle mesure elles sont fiables est essentiel pour votre stratégie en matière de données. C’est également une condition préalable à une économie de données saine, où les données ne sont plus limitées à un usage interne mais peuvent être partagées avec des partenaires commerciaux tout au long de la chaîne d’approvisionnement. Enfin et surtout: vos utilisateurs et vos clients exigent de plus en plus de transparence.

en savoir plus sur l’économie des données et comment y participer

Contrôler le trafic de données

Cependant, avant que les données ne soient ‘rendues transparentes’, il faut les rationaliser et les collecter de manière claire et cohérente. « Le rôle d’une plateforme de données est de permettre la collecte d’informations à partir de données et d’aider les utilisateurs à prendre des décisions plus éclairées. Comment ? En collectant et en harmonisant les données provenant de diverses sources au sein de l’entreprise ou de (des) l’organisation(s), » explique Sebastiaan Leysen, responsable de la plateforme de données chez delaware. « Cela inclut les données structurées et non structurées, les mégadonnées, les petits ensembles de données, etc. En outre, la plateforme doit permettre aux applications individuelles au sein ou en dehors d'une organisation de communiquer en temps réel. »

Sebastiaan compare cela à une tour de contrôle du trafic aérien: « On peut comparer les applications métier d’une organisation – comme ERP, CRM, les plateformes RH, etc. – à des avions. Toutes ces applications communiquent avec la tour de contrôle en temps quasi réel, souvent par le biais d’un paradigme événementiel, afin d’échanger entre elles les informations de processus utiles. La ‘tour’ est la plateforme de données qui distribue l’information parmi les avions, orchestre les mouvements de données, valide les données entrantes, surveille les flux de données, harmonise et consolide la diffusion des données et transmet les données à des tiers, internes et/ou externes. »  

illustration of a control tower

Source unique de vérité, nombreux cas d’utilisation

Dans notre vision d’une plateforme de données moderne, tout cela se fait automatiquement. « Lorsqu’une demande est enregistrée dans le CRM de l’organisation par exemple, les applications intéressées par cet événement sont notifiées en temps quasi réel, » explique Sebastiaan. « Ensuite, chaque événement est canalisé vers un entrepôt de données central (sur Azure ou SAP, par exemple) où il alimente un modèle de données canonique implémenté à l’aide d’outils comme Databricks, Azure Synapse, ou SAP Data Warehouse Cloud. Le résultat final est une ‘source unique de vérité’ qui facilite une prise de décision fiable. » 

Les informations centralisées peuvent alors être introduites dans une variété de cas d’utilisation comme par exemple un portail client B2B ou B2C. « Idéalement, tout ce que vous voyez sur un tel portail est généré par la plateforme et synchronisé automatiquement en fonction des événements et des données provenant d’autres systèmes. Les organisations peuvent même mettre en place des règles de diffusion spécifiques pour contrôler les informations qui sont divulguées. Dans une telle conception, personne n’a besoin de ‘publier’ manuellement quoi que ce soit sur le portail – tout se fait automatiquement et selon des règles prédéfinies. »

Architecture de données lakehouse

Le cœur de la plupart des plateformes de données modernes est une architecture de données lakehouse. Sebastiaan: « Cette configuration allie les meilleures fonctionnalités d’un entrepôt de données à celles d’un lac de données. Cela implique d’organiser et de conserver votre stockage dans des zones logiques, tout en profitant de la flexibilité de travailler avec n’importe quelle variété (format), volume (petit ou grand) et vitesse (traitement par lots ou en temps réel) de données imaginables. Vous souhaitez extraire du texte d’un PDF ou fusionner des fichiers .csv ? Pas de problème. »

Conformément à cette architecture, d’autres applications du paysage IT de l’organisation pourraient stocker directement certaines de leurs données sur le lac de données, en vue d’être traitées ultérieurement pour une consommation en aval. Bien souvent, la plateforme est entourée de ‘datamarts’ : des bases de données contenant des sous-ensembles de données adaptés à des objectifs et des cas d’utilisation spécifiques. « Cette ‘conservation de données’ est nécessaire et évite que votre lac de données ne devienne un marécage. »

Données canoniques

L’extraction de ce qu’on appelle les ‘données conservées’ ne nécessite que quelques lignes de code. « Le ‘modèle de données canonique’ est focalisé sur la réutilisabilité, » poursuit Sebastiaan. « Nous veillons à ce que chaque transformation ne soit définie qu’une seule fois et que les données conservées qui en résultent puissent être consommées comme des produits de données réutilisables. Cela permet aux ingénieurs de données, aux scientifiques, aux analystes et aux responsables de se concentrer sur la valeur ajoutée plutôt que sur des tâches générales tel que l’orchestration de données, l’exportation et la génération de lignées. »

En substance, il y a trois ‘étapes’ de données:

  • Étape 1 – Brutes: Les données sont dans leur format natif, telles que reçues de leur source. Elles ne sont pas filtrées ni purifiées, avant toute transformation. Elles doivent être immuables et fournies dans un format en lecture seule.
  • Étape 2 – Préparées: A ce stade, les données sont validées, normalisées et harmonisées, elles présentent un haut niveau de fiabilité. Elles se composent de blocs de construction réutilisables pour les modèles de données logiques.  
  • Étape 3 – Servies: Les données sont prêtes à être consommées par d’autre systèmes: elles sont optimisées pour la lecture et personnalisées pour des cas d’utilisation spécifiques. 

Ne faites pas cavalier seul

« Une plateforme de données solide, intelligente et moderne peut prendre en charge de nombreux besoins en matière de données », souligne Sebastiaan. « Cependant, la mise en place d’une telle plateforme nécessite de réunir et de faire collaborer un large éventail d’expertises et de départements, ce qui peut être délicat dans des organisations très structurées et hiérarchisées. Bien souvent, des applications doivent être créées à partir de rien. Dans tous les cas, il faut veiller à prendre les bonnes décisions. Pouvoir compter sur un partenaire stratégique ayant à la fois une expérience métier et les compétences techniques pour mener à bien ce projet est un atout majeur. Il faut aussi adhérer au principe ‘Echouer rapidement, apprendre plus vite’, ce qui signifie qu’il faut commencer petit pour obtenir rapidement un retour d’information pertinent sur ce qui fonctionne et ne fonctionne pas. De cette manière, vous pourrez construire une plateforme qui répond vraiment à vos besoins spécifiques. »

Vous recherchez des moyens de rationaliser les flux de données dans votre organisation et de stimuler l’efficience et la transparence ? Parlez-en à nos experts !

contenu associé