La modélisation des données est le processus de création d’une représentation visuelle de l’ensemble d’un système d’information ou de parties de celui-ci pour communiquer les connexions entre les points de données et les structures.
L’objectif de la modélisation de données est d’illustrer les types de données utilisées et stockées dans le système, les relations entre ces types de données, les façons dont les données peuvent être regroupées et organisées, ainsi que leurs formats et attributs.
Les modèles de données sont conçus en fonction des besoins de l’entreprise. Les règles et les exigences sont définies en amont selon le feedback des parties prenantes, afin qu’elles puissent être intégrées dans la conception d’un nouveau système, ou adaptées lors de l’itération d’un système existant.
Les données peuvent être modélisées à différents niveaux d’abstraction. Le processus commence par la collecte d’informations sur les besoins de l’entreprise auprès des parties prenantes et des utilisateurs finaux. Ces règles métier sont ensuite traduites en structures de données pour formuler un design concret de base de données. Le modèle de données peut être comparé à une feuille de route, à un schéma directeur ou à tout autre diagramme formel qui permet de mieux comprendre ce qui est conçu.
La modélisation de données emploie des schémas standardisés et des techniques formelles. Il s’agit d’un moyen courant, cohérent et prévisible de définir et de gérer les ressources de données au sein de l’entreprise, voire au-delà.
Idéalement, les modèles de données sont des documents vivants, qui évoluent en fonction des besoins de l’entreprise. Ils jouent un rôle important dans l’optimisation des processus métier et la planification de l’architecture et de la stratégie informatiques. Les modèles de données peuvent être partagés avec les fournisseurs, les partenaires et/ou entre pairs.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Comme tout processus de conception, la conception de bases de données et de systèmes d’information commence à un niveau élevé d’abstraction pour devenir de plus en plus concrète et spécifique. Les modèles de données peuvent généralement être divisés en trois catégories, dont le degré d’abstraction varie. Le processus commence par un modèle conceptuel, progresse vers un modèle logique et se termine par un modèle physique. Chaque type de modèle de données est abordé plus en détail dans les sections suivantes :
Également appelés modèles de domaine, ils offrent une vue d’ensemble de ce que le système contiendra, de la manière dont il sera organisé et des règles métier impliquées. Les modèles conceptuels sont généralement créés dans le cadre du processus de collecte des exigences du projet. En règle générale, ils comprennent des classes d’entités (définissant les éléments qu’il est important pour l’entreprise de représenter dans le modèle de données), leurs caractéristiques et contraintes, leurs relations et les exigences en matière de sécurité et d’intégrité des données. Les notations sont généralement simples.
Is sont moins abstraits et fournissent plus de détails sur les concepts et les relations dans le domaine considéré. On utilise un système de notation formelle pour la modélisation des données, qui indique les attributs des données, tels que les types de données et leurs tailles correspondantes, et montrent les relations entre les entités. Les modèles de données logiques ne spécifient aucune exigence système technique. Cette étape est fréquemment omise dans les pratiques agiles ou DevOps. Les modèles de données logiques peuvent être utiles dans les environnements d’implémentation très procéduraux, ou dans le cas des projets orientés données par nature tels que la conception d’entrepôts de données ou le développement de systèmes de production de rapports.
Ils fournissent un schéma expliquant comment les données seront physiquement stockées dans une base de données. Ils sont donc les moins abstraits de tous. Ils proposent une conception finalisée qui peut être mise en œuvre sous forme de base de données relationnelle, comprenant des tables associatives illustrant les relations entre les entités, ainsi que les clés primaires et étrangères qui seront utilisées pour maintenir ces relations. Les modèles de données physiques peuvent inclure des propriétés spécifiques aux systèmes de gestion de base de données (SGBD), comme l’optimisation de la performance.
En tant que discipline, la modélisation de données invite les parties prenantes à évaluer le traitement et le stockage des données dans les moindres détails. Les techniques de modélisation de données suivent différentes conventions qui dictent les symboles à utiliser pour représenter les données, ainsi que la manière dont les modèles sont présentés et dont les exigences de l’entreprise sont communiquées. Toutes les approches proposent des workflows formalisés qui incluent une séquence de tâches à effectuer de manière itérative. Ces workflows se présentent généralement comme suit :
La modélisation de données a évolué parallèlement aux systèmes de gestion de bases de données, les types de modèles devenant de plus en plus complexes au fur et à mesure que les besoins des entreprises en matière de stockage de données ont augmenté. Voici quelques types de modèles :
Les bases de données relationnelles utilisent fréquemment le langage de requête structuré (SQL) pour la gestion des données. Ces bases de données permettent de maintenir l’intégrité des données et de minimiser la redondance. Elles sont souvent utilisées dans les systèmes de point de vente, ainsi que pour d’autres types de traitement des transactions.
Deux modèles de données dimensionnels populaires sont le schéma en étoile, au sein duquel les données sont organisées en faits (éléments mesurables) et en dimensions (informations de référence), chaque fait étant entouré de ses dimensions associées selon un motif en forme d’étoile. L’autre est le schéma en flocon de neige, qui ressemble au schéma en étoile, mais qui comprend des couches supplémentaires de dimensions associées, ce qui rend le schéma de ramification plus complexe.
La modélisation de données permet aux développeurs, aux data architects, aux analystes métier et aux autres parties prenantes de visualiser et de comprendre plus facilement les relations entre les données au sein d’une base de données ou d’un entrepôt de données. Autres avantages :
De nombreuses solutions de génie logiciel assisté par ordinateur (CASE) commerciales et open source sont populaires aujourd’hui, notamment les outils de modélisation de données, de création de diagrammes et de visualisation des données. En voici quelques exemples :
Utilisez les outils et solutions de science des données pour découvrir des tendances et établir des prévisions à l’aide de diverses techniques impliquant des données, des algorithmes, le machine learning et l’IA.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.