Todo el machine learning comienza con un conjunto de datos o una colección de datos. Un conjunto de datos podría estar compuesto por hojas de cálculo, secuencias de video, páginas web, archivos PDF o cualquier otro tipo de datos. En términos generales, cuantos más datos de entrenamiento se introduzcan en un modelo, mejor será su rendimiento. Pero no se trata solo de la cantidad de datos: la calidad de los datos también es muy importante.

Los datos de entrenamiento de IA consisten en características, también llamadas atributos, que describen datos. Por ejemplo, un conjunto de datos sobre un equipamiento de fábrica puede incluir temperatura, velocidad de oscilación y hora de la última reparación. Estos datos se "alimentan" a un algoritmo de machine learning, un conjunto de instrucciones expresadas a través de un fragmento de código que procesa una entrada de datos para crear resultados. Alimentar datos al algoritmo significa proporcionarle datos de entrada, que luego se procesan y analizan para generar la salida. Un modelo matemático entrenado es el resultado de este proceso. Estos modelos son la base de casi toda la innovación reciente en inteligencia artificial.

Algunos modelos se utilizan para el procesamiento de lenguaje natural (PLN), que se puede emplear para enseñar a las máquinas a leer y hablar en lenguaje humano. La visión artificial permite que otros modelos interpreten la información visual. Pero todo comienza con los datos de entrenamiento.