Cloud

Les avantages de la data virtualisation

Share this post:

Le webinar de la série ‘Les rencontres du cloud’ du 27 mars, délivré par Francis Arnaudies et Vincent Perrin d’IBM, nous fait (re)découvrir les avantages de la virtualisation des données.

Avec un éclairage particulier sur les conditions de succès d’un projet de ce type qui intéresse notamment les architectes, les data engineers et les Chief Data Officers.

La data virtualisation répond au besoin de présenter des données de qualité aux utilisateurs métier, de manière extrêmement rapide, afin que ceux-ci puissent les monitorer et intervenir dessus. Elle accélère aussi le développement de nouveaux métiers.

Le constat est simple : l’analyse des données se révèle difficile dès qu’elle fait appel à plusieurs entrepôts de données existants qui n’obéissent pas aux mêmes règles de modélisation et manquent de cohérence entre eux.
La data virtualisation propose de construire un data warehouse unique au service de plusieurs entités qui se partagent une vue unifiée sur toutes les données.

Elle offre ainsi une vue logique, mais les données elles-mêmes restent physiquement gérées dans les silos existants, comme les systèmes opérationnels.

On distingue quatre cas d’usage et de bénéfices de la virtualisation des données :

  1. Le Décisionnel, dont le périmètre s’élargit à l’aide d’un « data mart » orienté métier,
    car on n’a pas toujours besoin que les données utilisées par le décisionnel persistent éternellement dans l’entrepôt de données
  2. La Business Intelligence, pour comparer par exemple des données opérationnelles avec des données historisées. La data virtualisation permet de se passer des traditionnelles couches d’extraction, transformation puis consolidation vers un entrepôt de données avant la génération d’un état.
    On obtient des rapports beaucoup plus utiles aux métiers avec des données qui sont directement tirées des systèmes opérationnels
  3. Le Big Data : grâce à la virtualisation, on peut travailler simultanément avec différents types de stockage et consolider des données provenant de plateformes de type Hadoop ou de type data store dans le cloud (AWS S3, IBM Objects Storage). La data virtualisation est le seul moyen pour les métiers d’accéder en une seule fois au données, stockées dans un entrepôt de données d’un côté, dans un système d’archivage ou dans un environnement Hadoop de l’autre. Un cas d’usage est l’offload de données de l’entrepôt de données (Oracle, DB2 ou Teradata) vers le big data. Un autre usage fréquemment demandé par les data scientists, consiste à visualiser des données qui se trouvent dans des silos historiques pour les comparer avec des nouvelles données, préparées et mises à disposition des data scientists grâce à la virtualisation des données.
  4. Le self-service de données basé sur une notion de bibliothèque.

 

Tous ces avantages se heurtent cependant à une limite : la puissance du réseau.
Notamment pour les requêtes puisant dans plusieurs entrepôts de données.
Il faut donc veiller à ne pas déplacer de gros volumes de données.

 

Sur le plan de l’architecture technique, la data virtualisation est basée sur un moteur d’exécution. Il utilise le langage SQL et se connecte simultanément aux sources de données structurées (relationnelles), non-structurées (Hadoop) ou semi-structurées (XML, Json). Le moteur restitue toujours l’information dans un format lignes-colonnes. Sur le marché des solutions de data virtualisation, la qualité et les performances du moteur font la différence. L’architecture se compose aussi d’une couche de ‘consommation’ qui intègre l’existant, comme les solutions de reporting et la data science.

La mise en œuvre de la data virtualisation se conduit comme un projet avec une attention particulière sur la gouvernance.

Pourquoi ? La gouvernance prend ici une importance fondamentale car il ne s’agit pas de standardiser un modèle de données pour un usage précis, mais ‘n’ modèles de données au sein desquels les règles de nommage des objets et des attributs peuvent varier.

La variable ‘client’ par exemple est nommée ‘client’ dans un modèle, mais ‘customer’ ou encore ‘cust’ dans un autre modèle. Il s’agit donc de maîtriser chaque terme métier en faisant un choix au niveau de l’entreprise afin que tout ce qui sera exposé aux utilisateurs-consommateurs soit unifié. Ce travail aboutit à la constitution d’un modèle de données logique qui rajoute une couche de complexité à la conception d’un entrepôt de données.

La gouvernance s’attache aussi à la mise en place de règles pour la sécurité et l’accès à l’information, et à tracer les chaînes de traitements de l’information (lineage).
En résumé, un projet de data virtualisation se mène en équipe transverse entre l’IT et les métiers. Elle réunit des architectes, des data engineers, des responsables de domaine.

Aujourd’hui, IBM propose un nouveau moteur de virtualisation – IBM Parrallel Processing Engine basé sur un ‘Common SQL Engine’ – qui présente l’avantage de prendre en compte les modèles préexistants et de les migrer de manière transparente car la couche d’accès à l’information reste inchangée.

Dans l’ancien système, le moteur allait chercher les données dans différentes sources, les unes à la suite des autres pour les remonter vers le coordonnateur central. Si plusieurs applications ou utilisateurs le sollicitaient en même temps, ce coordinateur se retrouvait rapidement engorgé. La nouvelle approche architecturale, dite ‘en constellation’ permet aux sources de données (edge nodes) de s’auto-organiser entre elles et réaliser elles-mêmes en grand partie l’analyse des données avant de remonter un résultat quasiment complet au coordinateur.

Cette parrallélisation massive des flux, divise les temps de traitement par trois !

Elle offre aussi une grande scalabilité dans la découverte d’informations.

Les sources de données accessibles par ce nouveau moteur sont Oracle, DB2, SQL Server, Hadoop, Amazon S3 comme on l’a vu plus haut, ainsi que Mongo DB et Informix, et aussi RStudio et Python grâce à la présence de plug-ins natifs qui permettent d’exécuter les analyses au plus près des données. La roamap produit apportera l’accès à MAP-R, SAP HANA et bien d’autres.

La data virtualisation, c’est donc bien plus qu’un simple moteur. Elle s’accompagne d’une gouvernance pour faciliter la découverte des données exposées à travers un Data Catalog et un Business Glossary et pour sécuriser leurs accès (policy rules).

La construction d’un modèle de données logique d’entreprise s’inscrit dans une démarche de collaboration entre les métiers et l’IT.

Dans ce but, IBM propose la plateforme Cloud Pak for Data qui permet de tirer les bénéfices complets de la data virtualisation en aidant à la formalisation, des demandes par les métiers et en améliorant le travail de l’IT (rapidité de réponse, délais de réalisation)

 

Pour retrouver l’ensemble des webinars IBM sur le thème du cloud, mais aussi d’autres sujets IT tels que la Blockchain, la Supply Chain, l’IoT, l’IA ou l’Analytics, rendez-vous sur cette page https://www.ibm.com/easytools/runtime/hspx/prod/public/X0033/Webinars/page/technology-solutions-webinars

 

Events Manager - Hybrid Cloud & Cognitive Solutions

More Cloud stories
15 octobre 2020

Digitalisation – Les Ressources Humaines à l’heure du bilan Post COVID-19

Depuis le mois de mars et le début de la crise COVID-19, les services de Ressources Humaines ont été mis à contribution de manière intensive afin d’organiser le travail à distance, de mettre en œuvre les dispositifs de chômage partiel pour la sauvegarde de l’emploi et enfin de planifier un retour au travail progressif et […]

Continue reading

26 août 2020

L’intelligence artificielle s’enracine dans les télécoms

La crise du Covid-19 a eu un impact sanitaire et économique sans précédent. Face à une activité encore très volatile et à une reprise économique qui se fait attendre, les nouvelles technologies, et en particulier l’IA, offrent des solutions et des leviers d’accélération. Dans ce contexte, comment utiliser au mieux les capacités de l’IA pour […]

Continue reading

23 juillet 2020

Christophe Colomb, le réchauffement climatique et l’optimisation mathématique

Organisation, processus, delivery… Pour l’entreprise, la quête de l’optimal a parfois des allures de quête du Graal. Comment optimiser en évitant les conséquences négatives ? La data et les algorithmes offrent une solution intéressante. 1492, Christophe Colomb cherche un chemin plus court entre l’Espagne et l’Asie afin d’optimiser l’accès à une ressource chère, les épices. […]

Continue reading