Todo el machine learning comienza con un conjunto de datos o una colección de datos. Un conjunto de datos puede estar formado por hojas de cálculo, secuencias de vídeo, páginas web, archivos PDF o cualquier otro tipo de datos. En términos generales, cuantos más datos de entrenamiento se introduzcan en un modelo, mejor será su rendimiento. Pero no se trata solo de la cantidad de datos, sino que la calidad de los datos también es muy importante.

Los datos de entrenamiento de IA consisten en características, también llamadas atributos, que describen los datos. Por ejemplo, un conjunto de datos sobre un equipo de fábrica puede incluir la temperatura, la velocidad de oscilación y la hora de la última reparación. Con estos datos se "alimenta" un algoritmo de machine learning, un conjunto de instrucciones expresadas a través de un fragmento de código que procesa una entrada de datos para crear un output. Alimentar el algoritmo con datos significa proporcionarle datos de entrada, que luego se procesan y analizan para generar el output. Un modelo matemático entrenado es el resultado de este proceso. Estos modelos son la base de casi todas las innovaciones recientes en inteligencia artificial.

Algunos modelos se utilizan para el procesamiento del lenguaje natural (PLN), que se puede utilizar para enseñar a las máquinas a leer y hablar en lenguaje humano. La visión artificial permite a otros modelos interpretar la información visual. Pero todo comienza con los datos de entrenamiento.