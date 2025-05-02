Tout machine learning commence par un ensemble de données ou une collection de données. Un jeu de données peut être composé de feuilles de calcul, de séquences vidéo, de pages Web, de PDF ou de tout autre type de données. En règle générale, plus il y a de données d'entraînement dans un modèle, meilleures sont ses performances. Mais il ne s’agit pas seulement de la quantité de données, leur qualité est également très importante.

Les données d’entraînement de l’IA sont constituées de fonctionnalités, également appelées attributs, qui décrivent les données. Par exemple, un ensemble de données concernant un équipement d'usine peut inclure la température, la vitesse d'oscillation et la date de la dernière réparation. Ces données sont « introduites » dans un algorithme de machine learning, un ensemble d’instructions exprimées par un morceau de code qui traite une entrée de données afin de créer une sortie. Alimenter l’algorithme en données signifie lui fournir des données d’entrée, qui sont ensuite traitées et analysées pour générer la sortie. Un modèle mathématique entraîné est le résultat de ce processus. Ces modèles constituent la base de presque toutes les innovations récentes en matière d’intelligence artificielle.

Certains modèles sont utilisés pour le traitement automatique du langage naturel (NLP), qui peut être utilisé pour apprendre aux machines à lire et à parler en langage humain. La vision par ordinateur permet à d'autres modèles d'interpréter les informations visuelles. Mais tout commence par les données d’entraînement.