Qu’est-ce que la modélisation des données ?

Petits bureaux privés colorés

Qu’est-ce que la modélisation des données ?

La modélisation des données est le processus de création d’une représentation visuelle de l’ensemble d’un système d’information ou de parties de celui-ci pour communiquer les connexions entre les points de données et les structures.

L’objectif de la modélisation de données est d’illustrer les types de données utilisées et stockées dans le système, les relations entre ces types de données, les façons dont les données peuvent être regroupées et organisées, ainsi que leurs formats et attributs.

Les modèles de données sont conçus en fonction des besoins de l’entreprise. Les règles et les exigences sont définies en amont selon le feedback des parties prenantes, afin qu’elles puissent être intégrées dans la conception d’un nouveau système, ou adaptées lors de l’itération d’un système existant.

Les données peuvent être modélisées à différents niveaux d’abstraction. Le processus commence par la collecte d’informations sur les besoins de l’entreprise auprès des parties prenantes et des utilisateurs finaux. Ces règles métier sont ensuite traduites en structures de données pour formuler un design concret de base de données. Le modèle de données peut être comparé à une feuille de route, à un schéma directeur ou à tout autre diagramme formel qui permet de mieux comprendre ce qui est conçu.

La modélisation de données emploie des schémas standardisés et des techniques formelles. Il s’agit d’un moyen courant, cohérent et prévisible de définir et de gérer les ressources de données au sein de l’entreprise, voire au-delà.

Idéalement, les modèles de données sont des documents vivants, qui évoluent en fonction des besoins de l’entreprise. Ils jouent un rôle important dans l’optimisation des processus métier et la planification de l’architecture et de la stratégie informatiques. Les modèles de données peuvent être partagés avec les fournisseurs, les partenaires et/ou entre pairs.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types de modèles de données

Comme tout processus de conception, la conception de bases de données et de systèmes d’information commence à un niveau élevé d’abstraction pour devenir de plus en plus concrète et spécifique. Les modèles de données peuvent généralement être divisés en trois catégories, dont le degré d’abstraction varie. Le processus commence par un modèle conceptuel, progresse vers un modèle logique et se termine par un modèle physique. Chaque type de modèle de données est abordé plus en détail dans les sections suivantes :

Modèles de données conceptuels

Également appelés modèles de domaine, ils offrent une vue d’ensemble de ce que le système contiendra, de la manière dont il sera organisé et des règles métier impliquées. Les modèles conceptuels sont généralement créés dans le cadre du processus de collecte des exigences du projet. En règle générale, ils comprennent des classes d’entités (définissant les éléments qu’il est important pour l’entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, leurs relations et les exigences en matière de sécurité et d’intégrité des données. Les notations sont généralement simples.

Diagramme de modélisation conceptuelle des données

Modèles de données logiques

Is sont moins abstraits et fournissent plus de détails sur les concepts et les relations dans le domaine considéré. On utilise un système de notation formelle pour la modélisation des données, qui indique les attributs des données, tels que les types de données et leurs tailles correspondantes, et montrent les relations entre les entités. Les modèles de données logiques ne spécifient aucune exigence système technique. Cette étape est fréquemment omise dans les pratiques agiles ou DevOps. Les modèles de données logiques peuvent être utiles dans les environnements d’implémentation très procéduraux, ou dans le cas des projets orientés données par nature tels que la conception d’entrepôts de données ou le développement de systèmes de production de rapports.

Diagramme de modélisation logique des données

Modèles de données physiques

Ils fournissent un schéma expliquant comment les données seront physiquement stockées dans une base de données. Ils sont donc les moins abstraits de tous. Ils proposent une conception finalisée qui peut être mise en œuvre sous forme de base de données relationnelle, comprenant des tables associatives illustrant les relations entre les entités, ainsi que les clés primaires et étrangères qui seront utilisées pour maintenir ces relations. Les modèles de données physiques peuvent inclure des propriétés spécifiques aux systèmes de gestion de base de données (SGBD), comme l’optimisation de la performance.

Diagramme de modélisation physique des données

Processus de modélisation des données

En tant que discipline, la modélisation de données invite les parties prenantes à évaluer le traitement et le stockage des données dans les moindres détails. Les techniques de modélisation de données suivent différentes conventions qui dictent les symboles à utiliser pour représenter les données, ainsi que la manière dont les modèles sont présentés et dont les exigences de l’entreprise sont communiquées. Toutes les approches proposent des workflows formalisés qui incluent une séquence de tâches à effectuer de manière itérative. Ces workflows se présentent généralement comme suit :

  1. Identifier les entités. Le processus de modélisation de données commence par l’identification des éléments, des événements ou des concepts représentés dans l’ensemble de données à modéliser. Chaque entité doit être cohérente et logiquement distincte des autres.
  2. Identifier les principales propriétés de chaque entité. Chaque type d’entité se distingue des autres par une ou plusieurs propriétés uniques, appelées attributs. Par exemple, une entité appelée « client » peut posséder des attributs tels qu’un prénom, un nom de famille, un numéro de téléphone et une formule de politesse, tandis qu’une entité appelée « adresse » peut inclure le nom et le numéro d’une rue, une ville, un État, un pays et un code postal.
  3. Identifier les relations entre les entités. La première ébauche du modèle de données précisera la nature des relations que chaque entité entretient avec les autres. Dans l’exemple ci-dessus, chaque client « habite » à une adresse. Si ce modèle était étendu pour inclure une entité appelée « commandes », chaque commande serait expédiée et facturée à une adresse. Ces relations sont généralement documentées à l’aide du langage de modélisation unifié (UML).
  4. Mapper intégralement les attributs aux entités. Cela permettra de s’assurer que le modèle reflète la façon dont l’entreprise utilisera les données. Plusieurs schémas formels de modélisation de données sont couramment utilisés. Les développeurs orientés objet appliquent souvent des schémas d’analyse ou de conception, tandis que les parties prenantes d’autres services peuvent se tourner vers d’autres modèles.
  5. Attribuez les clés selon les besoins, et décidez d’un degré de normalisation qui concilie nécessité de réduire la redondance et exigences de performance. La normalisation est une technique d’organisation des modèles de données (et des bases de données qu’ils représentent) selon laquelle des identifiants numériques, appelés clés, sont attribués à des groupes de données pour représenter les relations entre eux sans répéter les données. Par exemple, si une clé est attribuée à chaque client, cette clé peut être liée tant à son adresse qu’à l’historique de ses commandes, sans qu’il soit nécessaire de répéter ces informations dans la table Noms des clients. La normalisation tend à réduire l’espace de stockage requis par les bases de données, mais cela peut avoir un impact sur la performance des requêtes.
  6. Finaliser et valider le modèle de données. La modélisation de données est un processus itératif, qui doit être répété et affiné à mesure que les besoins de l’entreprise changent.
Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types de modélisation de données

La modélisation de données a évolué parallèlement aux systèmes de gestion de bases de données, les types de modèles devenant de plus en plus complexes au fur et à mesure que les besoins des entreprises en matière de stockage de données ont augmenté. Voici quelques types de modèles :

  • Les modèles de données hiérarchiques représentent des relations de type un à plusieurs dans un format arborescent. Dans ce type de modèle, chaque enregistrement possède une seule racine, ou parent, qui renvoie à une ou plusieurs tables enfants. Ce modèle a été mis en œuvre dans l’IBM Information Management System (IMS), introduit en 1966 et rapidement adopté, notamment dans le secteur bancaire. Bien que cette approche soit moins efficace que les modèles de bases de données développés plus récemment, elle est toujours utilisée dans les systèmes XML (Extensible Markup Language) et les systèmes d’information géographique (SIG).
  • Les modèles de données relationnels ont été initialement proposés par le chercheur d’IBM E.F. Codd en 1970. Ils continuent à être mis en œuvre dans les nombreuses bases de données relationnelles couramment utilisées dans l’informatique d'entreprise. La modélisation de données relationnelle n’exige pas une connaissance approfondie des propriétés physiques du stockage de données utilisé. Ici, les segments de données sont explicitement joints par le biais de tables, ce qui réduit la complexité de la base de données.

Les bases de données relationnelles utilisent fréquemment le langage de requête structuré (SQL) pour la gestion des données. Ces bases de données permettent de maintenir l’intégrité des données et de minimiser la redondance. Elles sont souvent utilisées dans les systèmes de point de vente, ainsi que pour d’autres types de traitement des transactions.

  • Les modèles de données entité-relation (ER) utilisent des diagrammes formels pour représenter les relations entre les entités d’une base de données. Les data architects utilisent plusieurs outils de modélisation ER pour créer des cartes visuelles qui communiquent les objectifs de la conception de base de données.
  • Les modèles de données orientés objet ont gagné en popularité, au même titre que la programmation orientée objet, au milieu des années 1990. Les « objets » impliqués sont des abstractions d’entités réelles. Les objets sont regroupés en hiérarchies de classes et possèdent des fonctionnalités associées. Les bases de données orientées objet peuvent incorporer des tables, mais aussi prendre en charge des relations de données plus complexes. Cette approche est utilisée notamment dans les bases de données multimédias et hypertexte.
  • Les modèles de données dimensionnels ont été développés par Ralph Kimball pour optimiser la vitesse de récupération des données à des fins analytiques dans un entrepôt de données. Alors que les modèles relationnels et ER mettent l'accent sur l’efficacité de stockage, les modèles dimensionnels augmentent la redondance pour faciliter la localisation des informations à des fins de reporting et de récupération. Cette modélisation est généralement utilisée sur les systèmes OLAP.

Deux modèles de données dimensionnels populaires sont le schéma en étoile, au sein duquel les données sont organisées en faits (éléments mesurables) et en dimensions (informations de référence), chaque fait étant entouré de ses dimensions associées selon un motif en forme d’étoile. L’autre est le schéma en flocon de neige, qui ressemble au schéma en étoile, mais qui comprend des couches supplémentaires de dimensions associées, ce qui rend le schéma de ramification plus complexe.

Avantages de la modélisation de données

La modélisation de données permet aux développeurs, aux data architects, aux analystes métier et aux autres parties prenantes de visualiser et de comprendre plus facilement les relations entre les données au sein d’une base de données ou d’un entrepôt de données. Autres avantages :

  • Réduire les erreurs lors du développement de logiciels et de bases de données.
  • Améliorer la cohérence de la documentation et de la conception des systèmes à l’échelle de l’entreprise.
  • Améliorer la performance des applications et des bases de données.
  • Faciliter la cartographie des données au sein de l’entreprise.
  • Améliorer la communication entre les développeurs et les équipes de Business Intelligence.
  • Faciliter et accélérer le processus de conception de bases de données aux niveaux conceptuel, logique et physique.

Outils de modélisation de données

De nombreuses solutions de génie logiciel assisté par ordinateur (CASE) commerciales et open source sont populaires aujourd’hui, notamment les outils de modélisation de données, de création de diagrammes et de visualisation des données. En voici quelques exemples :

  • erwin Data Modeler est un outil de modélisation de données basé sur le langage de modélisation de données IDEF1X (Integration DEFinition for information modeling), qui prend désormais en charge d’autres méthodes de notation, y compris une approche dimensionnelle.
  • Enterprise Architect est un outil de modélisation visuelle et de conception qui permet de modéliser les systèmes d’information et les architectures d’entreprise, ainsi que les applications logicielles et les bases de données. Il est basé sur des langages et des normes orientés objet.
  • ER/Studio est un logiciel de conception de base de données compatible avec les systèmes de gestion de base de données les plus populaires. Il prend en charge la modélisation de données relationnelle et dimensionnelle.
  • Parmi les outils de modélisation de données gratuits, citons la solution open source Open ModelSphere.
Solutions connexes
Outils et solutions de science des données

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

Découvrir les solutions de science des données
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.

Découvrir les solutions de science des données Découvrir les services d’analytique