Alimenter l’entreprise agentique Regarder la conférence Think Keynote

Qu’est-ce que la modélisation des données ?

Qu’est-ce que la modélisation des données ?

La modélisation des données est le processus de création d’une représentation visuelle de l’ensemble d’un système d’information ou de parties de celui-ci pour communiquer les connexions entre les points de données et les structures.

La modélisation des données a pour objectif de mettre en évidence les types de données utilisées et stockées au sein du système, ainsi que les relations entre ces types de données. Elle décrit également les différentes façons dont les données peuvent être regroupées et organisées, ainsi que leurs formats et leurs attributs.

Les modèles de données sont conçus en fonction des besoins de l’entreprise. Les règles et les exigences sont définies en amont selon le feedback des parties prenantes, afin qu’elles puissent être intégrées dans la conception d’un nouveau système, ou adaptées lors de l’itération d’un système existant.

Les données peuvent être modélisées à différents niveaux d’abstraction. Le processus commence par la collecte d’informations sur les besoins de l’entreprise auprès des parties prenantes et des utilisateurs finaux. Ces règles métier sont ensuite traduites en structures de données pour formuler un design concret de base de données. Le modèle de données peut être comparé à une feuille de route, à un schéma directeur ou à tout autre diagramme formel qui permet de mieux comprendre ce qui est conçu.

La modélisation des données s’appuie sur des schémas normalisés et des techniques formelles. Cette approche offre un moyen commun, cohérent et prévisible de définir et de gérer les ressources de données au sein d’une entreprise, voire au-delà.

Idéalement, les modèles de données sont des documents évolutifs qui s’adaptent aux besoins changeants de l’entreprise. Ils jouent un rôle important dans le soutien des processus métier et la planification de l’architecture et de la stratégie informatiques. Les modèles de données peuvent être partagés avec des fournisseurs, des partenaires ou des pairs du secteur.

Types de modèles de données

Comme tout processus du genre, la conception de bases de données et de systèmes d’information commence à un niveau d’abstraction élevé avant de devenir plus concrète et spécifique. Les modèles de données peuvent généralement être classés en trois catégories, qui varient en fonction de leur degré d’abstraction. Le processus commence par un modèle conceptuel, passe ensuite à un modèle logique et se termine par un modèle physique. Chaque type de modèle de données est abordé plus en détail dans les sections suivantes :

Modèles de données conceptuels

Ils sont également appelés modèles de domaine et offrent une vue d’ensemble de ce que le système contient, de la manière dont il est organisé et des règles métier impliquées. Les modèles conceptuels sont créés dans le cadre du processus de collecte des exigences initiales du projet.

En règle générale, ils comprennent des classes d’entités (définissant les types de choses qu’il est important pour l’entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, et les relations entre elles. Ils englobent également les exigences pertinentes en matière de sécurité et d’intégrité des données. Ces éléments définissent collectivement la manière dont les données sont structurées et gouvernées au sein du modèle. La notation utilisée est généralement simple.

Diagramme de modélisation conceptuelle des données

Modèles de données logiques

Ils sont moins abstraits et fournissent plus de détails sur les concepts et les relations dans le domaine considéré. L’un des nombreux systèmes de notation formelle pour la modélisation des données est utilisé. Ceux-ci indiquent les attributs des données, tels que les types de données et leurs tailles correspondantes, et montrent les relations entre les entités.

Les modèles de données logiques ne spécifient aucune exigence technique du système. Cette étape est souvent omise dans les pratiques agiles ou DevOps. Ces modèles peuvent être utiles dans des environnements de mise en œuvre hautement procéduraux, ou pour des projets de nature orientée données, tels que la conception d’entrepôts de données ou le développement de systèmes de reporting.

Diagramme de modélisation logique des données

Modèles de données physiques

Ils fournissent un schéma décrivant la manière dont les données seront physiquement stockées dans une base de données. À ce titre, ce sont les moins abstraits. Ils proposent une conception finalisée pouvant être mise en œuvre sous la forme d’une base de données relationnelle, comprenant des tables associatives qui illustrent les relations entre les entités. La conception précise également les clés primaires et les clés étrangères qui seront utilisées pour maintenir ces relations. Les modèles de données physiques peuvent inclure des propriétés spécifiques au système de gestion de bases de données relationnelles (DBMS), notamment le réglage des performances.

Diagramme de modélisation physique des données

Processus de modélisation des données

En tant que discipline, la modélisation de données invite les parties prenantes à évaluer le traitement et le stockage des données dans les moindres détails. Les techniques de modélisation de données suivent différentes conventions qui dictent les symboles à utiliser pour représenter les données, ainsi que la manière dont les modèles sont présentés et dont les exigences de l’entreprise sont communiquées. Toutes les approches proposent des workflows formalisés qui incluent une séquence de tâches à effectuer de manière itérative. Ces workflows se présentent généralement comme suit :

  1. Identifier les entités. Le processus de modélisation de données commence par l’identification des éléments, des événements ou des concepts représentés dans l’ensemble de données à modéliser. Chaque entité doit être cohérente et logiquement distincte des autres.
  2. Identifier les principales propriétés de chaque entité. Chaque type d’entité peut être distingué de tous les autres car il possède une ou plusieurs propriétés uniques, appelées attributs. Par exemple, une entité appelée « client » peut posséder des attributs tels qu’un prénom, un nom, un numéro de téléphone et un titre. Une entité appelée « adresse » peut inclure un nom de rue et un numéro, une ville, un code postal et un pays.
  3. Identifier les relations entre les entités. La première ébauche d’un modèle de données précisera la nature des relations que chaque entité entretient avec les autres. Dans l’exemple précédent, chaque client « réside à » une adresse. Si ce modèle est étendu pour inclure une entité appelée « commandes », chaque commande sera expédiée et facturée à une adresse. Ces relations sont documentées à l’aide du langage de modélisation unifié (UML).
  4. Mettre en correspondance les attributs avec les entités de manière exhaustive .Cette approche garantira que le modèle reflète la manière dont l’entreprise utilisera les données. Plusieurs schémas de modélisation formels sont largement utilisés. Les développeurs orientés objet appliquent souvent des schémas d’analyse ou de conception, tandis que les parties prenantes issues d’autres domaines d’activité peuvent se tourner vers d’autres schémas.
  5. Attribuer des clés selon les besoins et déterminer un degré de normalisation qui concilie la nécessité de réduire la redondance avec les exigences de performance. La normalisation est une technique d’organisation des modèles de données (et des bases de données qu’ils représentent) dans laquelle des identifiants numériques, appelés clés, sont attribués à des groupes de données afin de représenter les relations entre eux sans répéter les données. Par exemple, si une clé est attribuée à chaque client, elle peut être liée à la fois à son adresse et à son historique de commandes sans qu’il soit nécessaire de répéter ces informations dans la table des noms de clients. La normalisation réduit l’espace de stockage requis par une base de données, mais elle peut se faire au détriment de la performance des requêtes.
  6. Finaliser et valider le modèle de données. La modélisation de données est un processus itératif, qui doit être répété et affiné à mesure que les besoins de l’entreprise changent.
AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Types de modélisation de données

La modélisation des données a évolué parallèlement aux systèmes de gestion de bases de données, la complexité des types de modèles s’étant accrue à mesure que les besoins des entreprises en matière de stockage de données se sont développés. Voici plusieurs types de modèles :

  • Les modèles de données hiérarchiques représentent les relations « un-à-plusieurs » sous la forme d’une arborescence. Dans ce type de modèle, chaque enregistrement possède une racine ou un parent unique, qui est associé à une ou plusieurs tables enfants. Ce modèle a été implémenté dans l’IBM Information Management System (IMS), lancé en 1966 et qui s’est rapidement généralisé, notamment dans le secteur bancaire. Bien que cette approche soit moins efficace que les modèles de bases de données développés plus récemment, elle est toujours utilisée dans les systèmes XML (Extensible Markup Language) et les systèmes d’information géographique (SIG).
  • Les modèles de données relationnels ont été initialement proposés par le chercheur d’IBM E.F. Codd en 1970. Ils sont encore aujourd’hui mis en œuvre dans les nombreuses bases de données relationnelles couramment utilisées dans l’informatique d’entreprise. La modélisation relationnelle des données ne nécessite pas une compréhension détaillée des propriétés physiques du support de stockage utilisé. Les segments de données y sont explicitement reliés par le biais de tables, ce qui réduit la complexité de la base de données.

Les bases de données relationnelles utilisent fréquemment un langage de requête structuré (SQL) pour la gestion des données. Elles permettent de préserver l’intégrité des données et de minimiser la redondance. On les retrouve souvent dans les systèmes de point de vente, ainsi que dans d’autres systèmes de traitement des transactions.

  • Les modèles de données entité-relation (ER) utilisent des diagrammes formels pour représenter les relations entre les entités d’une base de données. Les data architects utilisent plusieurs outils de modélisation ER pour créer des cartes visuelles qui communiquent les objectifs de la conception de base de données.
  • Les modèles de données orientés objet ont gagné en popularité, au même titre que la programmation orientée objet, au milieu des années 1990. Les « objets » impliqués sont des abstractions d’entités réelles. Les objets sont regroupés en hiérarchies de classes et possèdent des fonctionnalités associées. Les bases de données orientées objet peuvent incorporer des tables, mais aussi prendre en charge des relations de données plus complexes. Cette approche est utilisée notamment dans les bases de données multimédias et hypertexte.
  • Les modèles de données dimensionnels ont été développés par Ralph Kimball dans le but d’optimiser la vitesse de récupération des données à des fins d’analyse dans les entrepôts de données. Alors que les modèles relationnels et ER mettent l’accent sur un stockage efficace, les modèles dimensionnels augmentent la redondance afin de faciliter la localisation des informations pour le reporting et la récupération. Cette modélisation est généralement utilisée dans les systèmes OLAP.

Il existe deux modèles de données dimensionnels courants : le schéma en étoile, dans lequel les données sont organisées en faits (éléments mesurables) et en dimensions (informations de référence). Dans ce modèle, chaque fait est entouré de ses dimensions associées selon une structure en étoile. L’autre est le schéma en flocon, qui ressemble au schéma en étoile mais inclut d’autres couches de dimensions associées, ce qui rend la structure ramifiée plus complexe.

Avantages de la modélisation de données

La modélisation des données permet aux développeurs, aux architectes et aux analystes de données, ainsi qu’aux autres parties prenantes, de visualiser et de comprendre plus facilement les relations entre les données d’une base de données ou d’un entrepôt de données. En outre, elle permet :

  • Réduire les erreurs lors du développement de logiciels et de bases de données.
  • Améliorer la cohérence de la documentation et de la conception des systèmes à l’échelle de l’entreprise.
  • Améliorer la performance des applications et des bases de données.
  • Faciliter la cartographie des données au sein de l’entreprise.
  • Améliorer la communication entre les développeurs et les équipes de Business Intelligence.
  • Faciliter et accélérer le processus de conception de bases de données aux niveaux conceptuel, logique et physique.

Outils de modélisation de données

De nombreuses solutions de génie logiciel assisté par ordinateur (CASE) commerciales et open source sont populaires aujourd’hui, notamment les outils de modélisation de données, de création de diagrammes et de visualisation des données. En voici quelques exemples :

  • erwin Data Modeler est un outil de modélisation de données basé sur le langage de modélisation de données IDEF1X (Integration DEFinition for information modeling), qui prend désormais en charge d’autres méthodes de notation, y compris une approche dimensionnelle.
  • Enterprise Architect est un outil de modélisation visuelle et de conception qui permet de modéliser les systèmes d’information et les architectures d’entreprise, ainsi que les applications logicielles et les bases de données. Il est basé sur des langages et des normes orientés objet.
  • ER/Studio est un logiciel de conception de base de données compatible avec les systèmes de gestion de base de données les plus populaires. Il prend en charge la modélisation de données relationnelle et dimensionnelle.
  • Parmi les outils de modélisation de données gratuits, citons la solution open source Open ModelSphere.
Rendu 3D d'une spirale de plusieurs icônes alignées comme un appareil photo, un bouton de volume et un clipboard
Solutions connexes
Outils et solutions de science des données

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

Découvrir les solutions de science des données
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

  1. Découvrir les solutions de science des données
  2. Découvrir les services d’analytique