Les données non structurées sont des informations qui ne suivent pas de format prédéfini. Les jeux de données non structurés sont massifs (souvent de l’ordre du téraoctet ou du pétaoctet) et contiennent 90 % de toutes les données générées par l’entreprise.1
Cette explosion des données non structurées s’explique par la diversité et l’abondance de leurs sources : documents texte, réseaux sociaux, fichiers image ou audio, messages instantanés, objets connectés, etc. Aujourd’hui, la quasi-totalité des nouvelles données générées est non structurée : chaque message envoyé, photo mise en ligne ou capteur déclenché contribue à l’augmentation du volume global.
Contrairement aux données structurées, qui obéissent à un modèle de données prédéfini, les données non structurées ne s’adaptent pas facilement aux schémas rigides des bases de données traditionnelles. Elles sont généralement stockées dans des systèmes de fichiers, des bases de données non relationnelles (NoSQL) ou dans des data lakes.
La complexité et la structure de données non uniforme des données non structurées nécessitent également des méthodes d’analyse des données plus sophistiquées. Des technologies comme le machine learning (ML) et le traitement automatique du langage naturel (NLP) sont souvent utilisées pour extraire des informations utiles à partir de ces jeux de données.
Jusqu’à récemment, les données non structurées étaient souvent qualifiées de dark data, en raison de leur volume et de leur hétérogénéité, qui les rendaient difficilement exploitables dans de nombreux cas d’utilisation.
Aujourd’hui, les entreprises disposant d’importants volumes de données non structurées détiennent un atout stratégique majeur. Combinées aux données structurées, elles offrent une vision complète et transversale des activités de l’entreprise. Et surtout, dans le contexte actuel, elles permettent aux entreprises de tirer pleinement parti du potentiel de l’intelligence artificielle générative (IA générative).
La majorité des données non structurées sont textuelles : e-mails, documents Word, fichiers PDF, articles de blog et publications sur les réseaux sociaux. Ces données comprennent également les transcriptions d’appels et les fichiers texte de messagerie, comme ceux générés par Microsoft Teams ou Slack.
Mais les données non structurées peuvent aussi être non textuelles. Parmi les exemples les plus courants de données non textuelles non structurées, on trouve les fichiers image (comme les formats JPEG, GIF et PNG), les fichiers multimédias et vidéo, l’activité mobile et les données issues de capteurs provenant d’objets connectés (Internet des objets ou IdO).
Les données sont généralement classées en trois catégories : structurées, non structurées et semi-structurées, selon leur format et les règles de schéma qui s’y appliquent. Comme son nom l’indique, une donnée semi-structurée présente des caractéristiques communes aux données structurées et non structurées. Voici un bref aperçu de chaque type de données :
Données structurées
Données non structurées
Données semi-structurées
Les données non structurées représentent la majeure partie des données générées par une entreprise. Elles sont diverses, flexibles et riches en informations, dont certaines ne figurent pas dans les jeux de données structurés. Si les données structurées conservent une valeur considérable, la plupart des entreprises disposent aujourd’hui de vastes volumes de données non structurées encore largement inexploitées.
Les données non structurées jouent également un rôle clé dans l’intelligence artificielle moderne. Sous forme de données publiques ou internes propriétaires, elles peuvent être utilisées pour entraîner des modèles d’IA et en améliorer les performances.
Avec les bons outils, les données non structurées peuvent répondre à de nombreux cas d’utilisation, notamment :
L’IA générative repose sur des modèles d’apprentissage profond capables d’identifier et de modéliser les relations et les schémas dans d’immenses volumes de données. Les données non structurées, souvent issues d’Internet, sont particulièrement adaptées à cet usage, car elles fournissent les grandes quantités de données riches et non étiquetées nécessaires à l’apprentissage.
RAG est une architecture conçue pour améliorer les performances d’un modèle d’IA générative en lui donnant accès à des bases de connaissances externes supplémentaires, comme les données non structurées internes d’une entreprise. Cette approche permet d’adapter les modèles à des cas d’utilisation spécifiques à un domaine, afin de fournir des réponses plus pertinentes.
L’analyse des sentiments consiste à analyser de grands volumes de texte pour déterminer si le contenu exprime un sentiment positif, négatif ou neutre. En tant qu’outil d’analyse du comportement client, elle exploite les vastes quantités de données textuelles non structurées générées par les clients sur les différents canaux numériques.
Les entreprises utilisent l’analyse prédictive pour anticiper les résultats futurs et identifier les risques et les opportunités à partir des données historiques. Par exemple, un établissement de santé peut exploiter les dossiers médicaux (des données textuelles non structurées) pour comprendre comment une maladie donnée a été diagnostiquée et traitée, puis construire un modèle prédictif à partir de ces résultats.
Un chatbot conçu pour les environnements professionnels peut analyser les données textuelles non structurées issues de ses échanges avec les clients ou les employés, afin d’en extraire des informations utiles. Cette analyse repose généralement sur des techniques telles que le traitement automatique du langage naturel (NLP) et le machine learning. Les informations ainsi obtenues permettent de mieux comprendre le comportement des utilisateurs et d’optimiser les performances du chatbot.
Les cas d’utilisation liés à l’intelligence artificielle basés sur des données non structurées suscitent un intérêt croissant chez les entreprises engagées dans l’innovation en matière d’IA. Prenons l’exemple de l’IA générative, la technologie qui alimente ChatGPT et d’autres applications d’IA devenues virales. Tout commence par un modèle de fondation, le plus souvent un grand modèle de langage (large language model ou LLM).
La création d’un modèle de fondation consiste à entraîner un algorithme d’apprentissage profond sur d’énormes volumes de données non structurées, généralement issues d’Internet. Ces données non structurées, riches et variées, permettent aux modèles d’IA d’apprendre le contexte et les nuances du langage.
Cependant, ces données d’entraînement non structurées peuvent être assez générales, sans lien direct avec un secteur ou une entreprise, et parfois obsolètes. Le modèle final peut alors éprouver des difficultés à répondre à des requêtes spécifiques à un domaine.
Pour relever ce défi, les entreprises peuvent adapter un modèle pré-entraîné à un cas d’utilisation ou à une tâche précise de plusieurs façons. L’une des méthodes utilisées, le réglage fin, consiste à affiner un modèle de base en l’entraînant sur un jeu de données plus réduit, ciblé sur la tâche en question. Cela requiert des données structurées de haute qualité, souvent des données propriétaires ou des connaissances spécialisées propres à un secteur.
Mais une autre méthode, la génération augmentée de récupération (RAG), permet d’exploiter les données non structurées. Alors que les LLM s’appuient généralement sur leurs données d’entraînement, RAG ajoute une couche de recherche d’information au workflow de l’IA, en récupérant des données pertinentes qu’il injecte dans le modèle pour améliorer la qualité des réponses. Ces données peuvent inclure des jeux de données non structurés internes.
Par rapport au réglage fin, RAG offre des résultats plus actuels et plus précis, car il interroge en permanence les sources d’information les plus récentes pendant la génération des réponses. Cette méthode permet de passer d’une IA figée et générique à une IA sur mesure, pertinente et à fort impact.
Comme les données structurées, les données non structurées doivent faire l’objet d’une gouvernance des données et d’une gestion des données rigoureuse avant d’être utilisées à des fins d’IA. Elles doivent être classifiées, évaluées en termes de qualité, filtrées pour exclure les données à caractère personnel (PII), puis dédupliquées.
Avec les bons outils, et même l’aide de l’IA, les entreprises peuvent transformer leurs données non structurées pour les rendre exploitables. Savoir organiser efficacement ce chaos de données constitue désormais un avantage concurrentiel, et un véritable levier pour les initiatives d’IA générative en entreprise.
Les données non structurées sont généralement stockées dans leur format natif, ce qui élargit les possibilités de stockage. Parmi les environnements de stockage des données les plus courants pour les données non structurées, on trouve notamment :
Le stockage objet (ou stockage basé sur les objets) stocke les données sous forme d’objets : des unités autonomes et simples, comprenant les données elles-mêmes, des métadonnées et un identifiant unique.Cette architecture est idéale pour le stockage, l’archivage, la sauvegarde et la gestion de gros volumes de données non structurées statiques. Le stockage objet dans le cloud est souvent utilisé pour optimiser les coûts de stockage et l’exploitation des données dans les charges de travail liées à l’IA.
Les data lakes sont des environnements de stockage conçus pour gérer de grandes quantités de données brutes, quel que soit leur format – en particulier le flux massif de données généré par les applications et services connectés à Internet. Ils s’appuient sur le cloud computing pour rendre le stockage des données plus évolutif et plus économique. En général, les data lakes utilisent du stockage objet dans le cloud, comme Azure Blob Storage, Google Cloud Storage ou IBM® Cloud Object Storage.
Les data lakehouses sont considérés comme la prochaine évolution de la gestion des données, car ils combinent les avantages des data lakes et des entrepôts de données (data warehouses). Ils offrent un stockage rapide et économique, tout en restant suffisamment flexibles pour prendre en charge l’analyse de données et les charges de travail IA/ML. Les data lakehouses prennent également en charge l’ingestion de données en temps réel, un élément clé pour les applications d’IA utilisées dans la prise de décision en temps réel.
Le langage de requête structuré (SQL) est un langage de programmation standardisé, spécifique à un domaine, utilisé pour stocker, manipuler et interroger des données. Une base de données NoSQL (ou non-SQL) est conçue pour stocker des données en dehors des structures relationnelles classiques, sans schéma. Les bases de données NoSQL offrent la vitesse et l’évolutivité nécessaires à la gestion de jeux de données non structurés volumineux. Parmi les exemples courants, on peut citer :MongoDB, Redis et HBase.
Une fois stockées, les données non structurées doivent souvent être traitées pour pouvoir être utilisées efficacement dans des cas d’utilisation en aval, comme l’analyse des données non structurées ou la business intelligence.
Certaines entreprises utilisent des cadres open source pour traiter de grands jeux de données non structurées. Par exemple, Apache Hadoop est souvent intégré aux architectures de data lake afin de permettre le traitement par lots de données non structurées et semi-structurées (comme les flux audio ou les sentiments exprimés sur les réseaux sociaux). Apache Spark est un autre cadre open source dédié au traitement du big data. Cependant, Spark utilise un traitement en mémoire, beaucoup plus rapide, ce qui le rend mieux adapté aux applications d’IA et de machine learning.
Il existe également des plateformes modernes d’intégration des données spécialement conçues pour gérer à la fois les données structurées et non structurées. Ces outils d’intégration polyvalents permettent d’ingérer automatiquement les données brutes, de les organiser, puis de transférer les données traitées vers les bases de données cibles. Ces fonctionnalités permettent de réduire considérablement le travail manuel, chronophage, des équipes de data science chargées de préparer les données non structurées brutes pour les projets d’IA.
Il existe de nombreux outils et technologies que les entreprises peuvent utiliser pour extraire des informations à partir de leurs données non structurées.
Les outils d’analyse basée sur l’IA reposent sur la capacité de l’intelligence artificielle à traiter rapidement de très grands volumes de données, ce qui est une capacité essentielle pour les entreprises souhaitant identifier des informations exploitables dans des jeux de données non structurées massifs. Grâce au machine learning et au traitement automatique du langage naturel, les algorithmes d’IA peuvent passer au crible les données non structurées pour trouver des tendances et formuler des prédictions ou des recommandations en temps réel. Ces modèles d’analyse peuvent également être intégrés à des tableaux de bord ou à des API, afin d’automatiser la prise de décision.
Le text mining (exploration de texte) utilise des algorithmes tels que Naïve Bayes, les machines à vecteurs de support (SVM) et d’autres techniques d’apprentissage profond pour aider les entreprises à explorer leurs données non structurées et à révéler des relations cachées. De nombreuses techniques sont utilisées dans le text mining : la recherche d’information, l’extraction d’information, le data mining et le traitement automatique du langage naturel.
Le traitement automatique du langage naturel (NLP) s’appuie sur le machine learning pour aider les ordinateurs à comprendre et à interagir avec le langage humain. Dans le cadre de l’analyse des données non structurées, le NLP permet d’extraire des informations à partir de textes non structurés, comme les avis clients ou les publications sur les réseaux sociaux. Il peut également améliorer l’exploration de texte en offrant des capacités avancées de compréhension du langage, notamment via l’analyse des sentiments.
Utilisez les solutions de base de données IBM pour répondre aux différents besoins en matière de workload sur le cloud hybride.
Découvrez IBM Db2, une base de données relationnelle qui offre des performances, une évolutivité et une fiabilité élevées pour le stockage et la gestion des données structurées. Elle est disponible en tant que solution SaaS sur IBM Cloud ou en autohébergement.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 « Untapped value: What every executive needs to know about unstructured data, » IDC, août 2023.