Qu’est-ce que la réduction des données ?

Auteurs

Staff Writer

IBM Think

Staff Editor

IBM Think

Qu’est-ce que la réduction des données ?

La réduction des données est le processus par lequel une organisation s’efforce de limiter la quantité de données qu’elle stocke.

Les techniques de réduction des données visent à réduire la redondance trouvée dans le jeu de données d’origine afin que de grandes quantités de données provenant de sources d’origine puissent être stockées plus efficacement sous forme de données réduites.

D’emblée, il convient de souligner que l’expression « réduction des données » n’équivaut pas automatiquement à une perte d’information. Dans de nombreux cas, la réduction des données signifie seulement que les données sont désormais stockées de manière plus intelligente, par exemple après avoir suivi le processus d’optimisation, puis avoir été réassemblées avec les données associées dans une configuration plus pratique.

La réduction des données n’est pas non plus identique à la déduplication des données, dans laquelle des copies supplémentaires des mêmes données sont purgées à des fins de rationalisation. Plus précisément, la réduction des données combine divers aspects de différentes activités, telles que la déduplication et la consolidation des données, pour atteindre ses objectifs.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Une vue plus complète des données

Lorsque l’on aborde les données dans le contexte de la réduction des données, nous parlons souvent de données sous leur forme singulière, par opposition à la forme pluralisée généralement utilisée. L’un des aspects de la réduction des données porte par exemple sur la définition des dimensions physiques réelles des points de données individuels.

La science des données est considérablement impliquée dans les activités de réduction des données. Le contenu peut être assez complexe et difficile à résumer de manière concise, et ce dilemme a donné naissance à son propre terme, l’interprétabilité, ou la capacité d’un humain d’intelligence moyenne à comprendre un modèle de machine learning donné.

Il peut être difficile de saisir la signification de certains de ces termes, car il s’agit de données vues d’une perspective quasi microscopique. Nous faisons généralement référence aux données sous leur forme « macro », mais dans la réduction des données, nous parlons souvent des données dans leur sens le plus « micro ». Plus précisément, la plupart des discussions à ce sujet nécessiteront à la fois des discussions au niveau macro et d’autres à l’extrémité micro de l’échelle.

Avantages de la réduction des données

Lorsqu’une organisation réduit le volume de données qu’elle gère, elle réalise généralement des économies financières considérables grâce à la réduction des coûts de stockage associés à une plus faible consommation d’espace de stockage.

Les méthodes de réduction des données offrent également d’autres avantages, comme une plus grande efficacité des données. Lorsque la réduction des données a été réalisée, les données résultantes sont plus faciles à utiliser de diverses manières pour les méthodes d’intelligence artificielle (IA), y compris pour des applications analytiques sophistiquées des données qui peuvent grandement rationaliser les tâches de prise de décision.

Par exemple, lorsque la virtualisation de stockage est correctement utilisée, elle facilite la coordination entre les environnements de serveurs et de postes de travail, ce qui améliore leur efficacité globale et les rend plus fiables.

Les efforts de réduction des données jouent un rôle clé dans les activités de data mining. Les données doivent être aussi propres et préparées que possible avant d’être extraites et utilisées pour l’analyse des données.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Accéder à l’épisode

Types de réduction des données

Voici quelques-unes des méthodes à la disposition des organisations pour réduire les données.

Réduction de la dimensionnalité

La notion de dimensionnalité des données sous-tend l’ensemble de ce concept. La dimensionnalité fait référence au nombre d’attributs (ou caractéristiques) attribués à un seul jeu de données. Cependant, un compromis s’opère ici : plus la dimensionnalité est grande, plus le stockage de données exigé par ce jeu de données est important. En outre, plus la dimensionnalité est élevée, plus les données ont tendance à être rares, ce qui complique l’analyse des données aberrantes.

La réduction de la dimensionnalité permet de contrer cela en limitant le « bruit » dans les données et en permettant une meilleure visualisation des données. Un excellent exemple de réduction de la dimensionnalité est la méthode de la transformée en ondelettes, qui aide à la compression d’images en maintenant la distance relative qui existe entre les objets à différents niveaux de résolution.

L’extraction de caractéristiques est une autre transformation possible pour les données : elle convertit les données d’origine en caractéristiques numériques et fonctionne en conjonction avec le machine learning. Elle diffère de l’analyse en composantes principales (ACP), un autre moyen de réduire la dimensionnalité des grands jeux de données, dans lequel un ensemble important de variables est transformé en un ensemble plus petit tout en conservant la plupart des données du grand ensemble.

Réduction de la numérosité

L’autre méthode consiste à sélectionner un format de données plus petit et de moindre intensité pour représenter les données. Il existe deux types de réduction de la numérosité : celle basée sur des méthodes paramétriques et celle basée sur des méthodes non paramétriques. Les méthodes paramétriques telles que la régression se concentrent sur les paramètres du modèle, à l’exclusion des données elles-mêmes. De même, un modèle log-linéaire qui se concentre sur les sous-espaces dans les données peut être utilisé. À l’inverse, les méthodes non paramétriques (comme les histogrammes, qui montrent la façon dont les données numériques sont distribuées) ne reposent pas du tout sur des modèles.

Agrégation de cubes de données

Les cubes de données sont un moyen visuel de stocker des données. Le terme « cube de données » est en fait presque trompeur, car il semble impliquer une notion d’unicité, alors qu’il décrit en réalité un grand cube multidimensionnel composé de cuboïdes plus petits et organisés. Chaque cuboïde représente un aspect de l’ensemble des données contenues dans ce cube de données, en particulier des éléments de données concernant les mesures et les dimensions. L’agrégation de cubes de données est donc la consolidation des données dans le format visuel du cube multidimensionnel, ce qui réduit la taille des données en leur donnant un conteneur unique spécialement conçu à cet effet.

Discrétisation des données

Une autre méthode utilisée pour la réduction des données est la discrétisation des données, dans laquelle un ensemble linéaire de valeurs de données est créé autour d’un ensemble défini d’intervalles qui correspondent chacun à une valeur de données déterminée.

Compression des données

Afin de limiter la taille des fichiers et d’obtenir une compression réussie des données, différents types d’encodage peuvent être utilisés. En général, les techniques de compression de données sont considérées comme utilisant soit la compression sans perte, soit la compression avec perte, et elles sont regroupées en fonction de ces deux types. Dans la compression sans perte, la taille des données est réduite grâce à des techniques d’encodage et à des algorithmes, et les données d’origine complètes peuvent être restaurées si nécessaire. La compression avec perte, quant à elle, utilise d’autres méthodes pour effectuer sa compression, et bien que ses données traitées puissent valoir la peine d’être conservées, elles ne sont pas une copie exacte, comme c’est le cas avec une compression sans perte.

Prétraitement des données

Certaines données doivent être nettoyées, préparées et traitées avant d’être soumises aux processus d’analyse et de réduction des données. Une partie de cette transformation peut impliquer de modifier la nature des données d’analogique à numérique. Le groupement ou « binning » est un autre exemple de prétraitement des données, dans lequel les valeurs médianes sont utilisées pour normaliser divers types de données et garantir l’intégrité des données à tous les niveaux.

Qu’est-ce que la réduction des données ?

Qu’est-ce que la réduction des données ?

Les dernières actualités technologiques, étayées par des avis d’experts

Merci ! Vous êtes abonné(e).

Une vue plus complète des données

Avantages de la réduction des données

La gestion des données est-elle le secret de l’IA générative ?

Types de réduction des données

Réduction de la dimensionnalité

Réduction de la numérosité

Agrégation de cubes de données

Discrétisation des données

Compression des données

Prétraitement des données