Qu'est-ce que la modélisation des données ?
Découvrez comment la modélisation des données utilise l'abstraction pour représenter et mieux comprendre la nature du flux de données dans un système d'information d'entreprise
arrière-plan noir et bleu
Qu'est-ce que la modélisation des données ?

La modélisation des données est le processus de création d'une représentation visuelle de l'ensemble ou d'une partie d'un système d'information, afin de communiquer les connexions entre les points et les structures de données. L'objectif est d'illustrer les types de données utilisées et stockées dans le système, les relations entre ces types de données, les façons dont les données peuvent être regroupées et organisées, ainsi que leurs formats et attributs.

Les modèles de données sont construits autour des besoins métier. Les règles et les exigences sont définies en amont grâce au retour d'information des parties prenantes, afin qu'elles puissent être intégrées dans la conception d'un nouveau système ou adaptées lors de l'itération d'un système existant.

Les données peuvent être modélisées à divers niveaux d'abstraction. Le processus commence par la collecte d'informations sur les exigences métier auprès des parties prenantes et des utilisateurs finaux. Ces règles métier sont ensuite traduites en structures de données pour formuler une conception concrète de la base de données. Un modèle de données peut être comparé à une feuille de route, à un plan directeur d'architecte ou à tout autre diagramme formel qui facilite une compréhension plus approfondie de ce qui est conçu.

La modélisation des données utilise des schémas standardisés et des techniques formelles. Il s'agit d'un moyen commun, cohérent et prévisible de définir et de gérer les ressources de données dans une organisation, voire au-delà.

Dans l'idéal, les modèles de données sont des documents vivants qui évoluent en même temps que les besoins de l'entreprise. Ils jouent un rôle important dans le soutien des processus métier et dans la planification de l'architecture et de la stratégie informatiques. Les modèles de données peuvent être partagés avec des vendeurs, des partenaires et/ou des pairs du secteur.

Types de modèles de données

Comme tout processus de conception, la conception de bases de données et de systèmes d'information commence à un haut niveau d'abstraction et devient de plus en plus concrète et spécifique. Les modèles de données peuvent être généralement divisés en trois catégories, qui varient en fonction de leur degré d'abstraction. Le processus commencera par un modèle conceptuel, passera à un modèle logique et se terminera par un modèle physique. Chaque type de modèle de données est abordé plus en détail ci-dessous :

  • Modèles de données conceptuels. On les appelle également modèles de domaine. Ils offrent une vue d'ensemble de ce que le système contiendra, de la manière dont il sera organisé et des règles de gestion impliquées. Les modèles conceptuels sont généralement créés dans le cadre du processus de collecte des exigences initiales du projet. En général, ils comprennent des classes d'entités (définissant les types de choses qu'il est important pour l'entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, les relations entre elles et les exigences pertinentes de sécurité et d'intégrité des données. Toute notation est généralement simple.

     

  • Modèles de données logiques. Ils sont moins abstraits et fournissent plus de détails sur les concepts et les relations du domaine considéré. L'un des nombreux systèmes de notation formelle de modélisation des données est suivi. Ceux-ci indiquent les attributs des données, tels que les types de données et leurs longueurs correspondantes, et montrent les relations entre les entités. Les modèles logiques de données ne spécifient aucune exigence technique du système. Cette étape est généralement omise dans les pratiques Agile ou DevOps . Les modèles de données logiques peuvent être utiles dans des environnements d'implémentation hautement procéduraux, ou pour des projets orientés données par nature, tels que la conception d' entrepôts de données  ou le développement de systèmes de production de rapports.

     

  • Modèles de données physiques. Ils  fournissent un schéma de la manière dont les données seront physiquement stockées dans une base de données. En tant que tels, ils sont les moins abstraits de tous. Ils offrent une conception finalisée qui peut implémentée en tant que  base de données relationnelle, comprenant des tables associatives qui illustrent les relations entre les entités, ainsi que les clés primaires et les clés externes qui seront utilisées pour maintenir ces relations. Les modèles de données physiques peuvent inclure des propriétés spécifiques au système de gestion de base de données (SGBD), y compris le réglage des performances.
Processus d'exploration de données

En tant que discipline, la modélisation des données invite les parties prenantes à évaluer le traitement et le stockage des données dans les moindres détails. Les techniques de modélisation des données suivent des conventions différentes qui dictent les symboles utilisés pour représenter les données, la façon dont les modèles sont présentés et la façon dont les exigences métier sont transmises. Toutes les approches fournissent des flux formalisés qui comprennent une séquence de tâches à exécuter de manière itérative. Ces flux se présentent généralement comme suit :

  1. Identifier les entités. Le processus de modélisation des données commence par l'identification des choses, des événements ou des concepts qui sont représentés dans l'ensemble de données à modéliser. Chaque entité doit être cohérente et logiquement distincte de toutes les autres.
  2. Identifier les principales caractéristiques de chaque entité. Chaque type d'entité peut être différencié de tous les autres, car il possède une ou plusieurs propriétés uniques, appelées attributs. Par exemple, une entité appelée « client » peut posséder des attributs tels qu'un prénom, un nom de famille, un numéro de téléphone et une formule de politesse, tandis qu'une entité appelée « adresse » peut comprendre un nom et un numéro de rue, une ville, un état, un pays et un code postal.
  3. Identifier les relations entre les entités. La toute première ébauche d'un modèle de données spécifiera la nature des relations que chaque entité entretient avec les autres. Dans l'exemple ci-dessus, chaque client « vit à » une adresse. Si ce modèle était élargi pour inclure une entité « commandes », chaque commande serait expédiée et facturée à une adresse également. Ces relations sont généralement documentées via le langage de modélisation unifié (UML).
  4. Associer complètement les attributs aux entités. Cela permettra de s'assurer que le modèle reflète la façon dont l'entreprise utilisera les données. Plusieurs modèles formels de modélisation des données sont largement utilisés. Les développeurs orientés objet appliquent généralement des modèles d'analyse ou de conception, tandis que les parties prenantes d'autres domaines d'activité peuvent se tourner vers d'autres modèles.
  5. Attribuez des clés selon les besoins et décidez d'un degré de normalisation qui équilibre la nécessité de réduire la redondance avec les exigences de performance. La normalisation est une technique d'organisation des modèles de données (et des bases de données qu'ils représentent) dans laquelle des identifiants numériques, appelés clés, sont attribués à des groupes de données pour représenter les relations entre eux sans répéter les données. Par exemple, si chaque client se voit attribuer une clé, cette clé peut être liée à la fois à son adresse et à l'historique de ses commandes sans avoir à répéter ces informations dans la table des noms de clients. La normalisation tend à réduire l'espace de stockage nécessaire à une base de données, mais elle peut avoir un coût sur les performances des requêtes.
  6. Finaliser et valider le modèle de données. La modélisation des données est un processus itératif qui doit être répété et affiné à mesure que les besoins de l'entreprise évoluent.
Types de modélisation de données

La modélisation des données a évolué parallèlement aux systèmes de gestion des bases de données, les types de modèle devenant de plus en plus complexes à mesure que les besoins des entreprises en stockage de données augmentaient. Voici plusieurs types de modèle :

  • Les modèles de données hiérarchiques  représentent les relations de type un à plusieurs sous une forme d'arborescence. Dans ce type de modèle, chaque enregistrement a une racine ou un parent unique qui correspond à une ou plusieurs tables enfants. Ce modèle a été implémenté dans l'IBM Information Management System (IMS), qui a été introduit en 1966 et a rapidement trouvé une large utilisation, notamment dans le secteur bancaire. Bien que cette approche soit moins efficace que les modèles de base de données développés plus récemment, elle est toujours utilisée dans les systèmes XML (Extensible Markup Language) et les systèmes d'information géographique (SIG).
  • Les modèles de données relationnels  ont été initialement proposés par E.F. Codd, chercheur chez IBM, en 1970. lls sont encore implémentés aujourd'hui dans les nombreuses bases de données relationnelles différentes couramment utilisées dans l'informatique d'entreprise. La modélisation des données relationnelles ne nécessite pas une compréhension détaillée des propriétés physiques du stockage de données utilisé. Dans ce modèle, les segments de données sont explicitement joints par l'utilisation de tables, ce qui réduit la complexité de la base de données.

Les bases de données relationnelles utilisent fréquemment le langage SQL pour la gestion des données. Ces bases de données fonctionnent bien pour maintenir l'intégrité des données et réduire la redondance. Elles sont souvent utilisées dans les systèmes de point de vente, ainsi que pour d'autres types de traitement des transactions.

  • Les modèles de données entité-relation (ER)  utilisent des diagrammes formels pour représenter les relations entre les entités d'une base de données. Plusieurs outils de modélisation ER sont utilisés par les architectes de données pour créer des mappes visuelles qui transmettent les objectifs de conception de la base de données.
  • Les modèles de données orientés objet  ont gagné en popularité en même temps que la programmation orientée objet et sont devenus courants au milieu des années 1990. Les « objets » concernés sont des abstractions d'entités du monde réel. Les objets sont regroupés dans des hiérarchies de classes, et ont des caractéristiques associées. Les bases de données orientées objet peuvent intégrer des tables, mais également prendre en charge des relations de données plus complexes. Cette approche est utilisée dans les bases de données multimédia et hypertexte, ainsi que dans d'autres cas d'utilisation.
  • Les modèles de données dimensionnels  ont été développés par Ralph Kimball et ont été conçus pour optimiser la vitesse d'extraction des données à des fins analytiques dans un  entrepôt de données. Alors que les modèles relationnels et ER mettent l'accent sur l'efficacité du stockage, les modèles dimensionnels augmentent la redondance, afin de faciliter la localisation des informations pour les rapports et la recherche. Cette modélisation est généralement utilisée dans tous les systèmes OLAP .

Deux modèles de données dimensionnelles largement utilisés sont le schéma en étoile, dans lequel les données sont organisées en faits (éléments mesurables) et en dimensions (informations de référence), où chaque fait est entouré de ses dimensions associées dans un modèle en étoile. L'autre est le schéma en flocon de neige, qui ressemble au schéma en étoile, mais comprend des couches supplémentaires de dimensions associées, ce qui rend le schéma de ramification plus complexe.

Avantages de la modélisation des données

La modélisation des données permet aux développeurs, aux architectes de données, aux analystes métier et aux autres parties prenantes de visualiser et de comprendre plus facilement les relations entre les données d'une base ou d'un entrepôt de données. En outre, elle peut :

  • Réduire les erreurs dans le développement de logiciels et de bases de données
  • Améliorer la cohérence de la documentation et de la conception des systèmes dans l'ensemble de l'entreprise.
  • Améliorer les performances des applications et des bases de données.
  • Faciliter le mappage des données dans toute l'organisation.
  • Améliorer la communication entre les développeurs et les équipes de l'informatique décisionnelle.
  • Faciliter et accélérer le processus de conception des bases de données aux niveaux conceptuel, logique et physique.

Outils de modélisation des données

De nombreuses solutions commerciales et open source d'ingénierie logicielle assistée par ordinateur (CASE) sont largement utilisées aujourd'hui, notamment plusieurs outils de modélisation, de diagramme et de visualisation des données. Voici quelques exemples :

  • erwin Data Modeler  est un outil de modélisation des données basé sur le langage de modélisation des données IDEF1X (Integration DEFinition for information modeling) qui prend désormais en charge d'autres méthodologies de notation, notamment une approche dimensionnelle.
  • Enterprise Architect  est un outil de modélisation et de conception visuelle qui prend en charge la modélisation des systèmes d'information et des architectures d'entreprise, ainsi que des applications logicielles et des bases de données. Il repose sur des langages et des standards orientés objet
  • ER/Studio  est un logiciel de conception de bases de données compatible avec plusieurs des systèmes de gestion de bases de données les plus courants. Il prend en charge à la fois la modélisation des données relationnes et dimensionnelles.
  • Les outils gratuits de modélisation des données comprennent des solutions open source telles qu'Open ModelSphere.
Solutions connexes
Entrepôt de données

Un entrepôt de données cloud entièrement géré et élastique, dédié à l'analyse hautes performances et à l'IA

Explorer Db2 Warehouse on Cloud
Solutions IBM Cloud

Hybride. Ouvert. Résilient. Votre plateforme et partenaire pour la transformation numérique.

Explorer les solutions cloud
Solutions Cloud Pak

Logiciel cloud hybride optimisé par l'IA.

Explorer les solutions Cloud Pak
Pour aller plus loin

Les chercheurs d'IBM ont été parmi les pionniers qui ont créé les premiers modèles de données hiérarchiques et relationnels et ont également conçu les bases de données où ces modèles ont été initialement implémentés. Aujourd'hui, IBM Cloud fournit une plateforme complète qui prend en charge un riche portefeuille de bases de données SQL et NoSQL, ainsi que les outils de développement nécessaires pour gérer efficacement les ressources de données en leur sein. IBM Cloud prend également en charge des outils open source qui aident les développeurs à gérer le stockage de données d'objet, de fichier et par bloc, afin d'optimiser les performances et la fiabilité.

Explorer IBM® SPSS® Modeler aujourd'hui