¿Qué son los datos de entrenamiento?

¿Qué son los datos de entrenamiento?

Los datos de entrenamiento son información que se utiliza para enseñar a un modelo de machine learning a hacer predicciones, reconocer patrones o generar contenido. Después de que un algoritmo procese una gran cantidad de datos, se considera que están "entrenados" y se pueden utilizar para muchas aplicaciones. Pero sin datos de entrenamiento, ni siquiera los algoritmos sofisticados son útiles, como un estudiante brillante que no estudió el temario para un examen.

Todo el machine learning comienza con un conjunto de datos o una colección de datos. Un conjunto de datos puede estar formado por hojas de cálculo, secuencias de vídeo, páginas web, archivos PDF o cualquier otro tipo de datos. En términos generales, cuantos más datos de entrenamiento se introduzcan en un modelo, mejor será su rendimiento. Pero no se trata solo de la cantidad de datos, sino que la calidad de los datos también es muy importante.

Los datos de entrenamiento de IA consisten en características, también llamadas atributos, que describen los datos. Por ejemplo, un conjunto de datos sobre un equipo de fábrica puede incluir la temperatura, la velocidad de oscilación y la hora de la última reparación. Con estos datos se "alimenta" un algoritmo de machine learning, un conjunto de instrucciones expresadas a través de un fragmento de código que procesa una entrada de datos para crear un output. Alimentar el algoritmo con datos significa proporcionarle datos de entrada, que luego se procesan y analizan para generar el output. Un modelo matemático entrenado es el resultado de este proceso. Estos modelos son la base de casi todas las innovaciones recientes en inteligencia artificial.

Algunos modelos se utilizan para el procesamiento del lenguaje natural (PLN), que se puede utilizar para enseñar a las máquinas a leer y hablar en lenguaje humano. La visión artificial permite a otros modelos interpretar la información visual. Pero todo comienza con los datos de entrenamiento.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de formación

Los diferentes tipos de algoritmos de aprendizaje utilizan diferentes enfoques para entrenar los datos. El aprendizaje supervisado utiliza datos etiquetados, mientras que el aprendizaje no supervisado utiliza datos no etiquetados. El aprendizaje semisupervisado combina ambos.

Modelos de entrenamiento para el aprendizaje supervisado

El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos etiquetados para entrenar modelos de IA para identificar los patrones subyacentes en todos los puntos de datos. Los datos etiquetados incluyen características y etiquetas, outputs correspondientes que el modelo utiliza para comprender la relación entre ambos.

Muchas empresas contratan grandes equipos de anotadores de datos humanos, que a veces son asistidos por máquinas. Estos anotadores a menudo requieren experiencia en el dominio para garantizar que los datos estén etiquetados correctamente. Por ejemplo, al etiquetar datos legales, los anotadores pueden necesitar experiencia en derecho. El proceso de utilizar anotadores humanos para ayudar a garantizar un etiquetado adecuado a veces se denomina "human in the loop".

Un ejemplo clásico de aprendizaje supervisado es la detección de spam. Para enseñar a un modelo a identificar el spam, se podría exponerlo a un conjunto de datos compuesto por miles de correos electrónicos, cada uno etiquetado por humanos como "spam" o "no spam". El modelo revisaría los patrones en los correos electrónicos, notando varios patrones. Por ejemplo, los correos electrónicos que tienen la palabra "gratis" en la línea de asunto tienen más probabilidades de ser spam. El modelo calcularía la probabilidad estadística de que la palabra "gratis" en la línea de asunto corresponda a la etiqueta "spam". Luego, cuando se le da un nuevo correo electrónico sin etiqueta, el modelo puede aplicar ese cálculo, junto con muchos otros, para determinar si el nuevo correo electrónico es spam o no.

Este tipo de machine learning se denomina "supervisado" porque implica la supervisión humana para etiquetar todos esos datos.

Modelos de entrenamiento para el aprendizaje no supervisado

Los modelos de aprendizaje no supervisado funcionan por sí solos para descubrir la estructura inherente de los datos no etiquetados. Mientras que el aprendizaje supervisado es útil para asignar entradas a outputs, el aprendizaje no supervisado es más adecuado para encontrar patrones, estructuras y relaciones dentro de los propios datos, sin ninguna orientación sobre qué buscar.

Por ejemplo, imagina que un anunciante quiere agrupar a los clientes en distintos segmentos en función del comportamiento de compra sin conocer las categories de antemano. Un conjunto de datos sin etiquetar puede incluir características como la frecuencia de compra, el valor medio de los pedidos, los tipos de productos comprados y el tiempo transcurrido desde la última compra, pero no tiene columnas para "tipo de cliente". Eso es lo que el modelo está tratando de averiguar. Se podría utilizar un algoritmo de agrupación para identificar tres clústeres:

  1. Compradores frecuentes que gastan mucho
     

  2. Compradores ocasionales con descuento
     

  3. Clientes nuevos o únicos

El modelo aprendió los patrones por sí solo y realizó estas agrupaciones directamente a partir del conjunto de datos de entrenamiento.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Preparación de datos de entrenamiento

Hay datos por todas partes. La población mundial genera inmensas cantidades de datos cada segundo del día. Pero los datos sin procesar no suelen ser útiles para el entrenamiento de modelos. La garantía de calidad es fundamental. En primer lugar, los datos deben preprocesarse a través de un pipeline de datos de varios pasos. Este puede ser un proceso complicado para los científicos de datos, que comprende una gran parte del alcance de un proyecto de machine learning, que requiere herramientas e infraestructura sofisticadas de ciencia de datos. Los datos de mala calidad pueden introducir ruido y sesgos, lo que impide que los modelos de machine learning hagan predicciones precisas, pero los datos de entrenamiento de alta calidad permiten que los modelos produzcan resultados más fiables en innumerables casos de uso, desde la automatización hasta la traducción y la toma de decisiones basada en datos.

Recopilación de datos

Primero se deben recopilar los datos. Para los sistemas de IA, como los vehículos autónomos o los hogares inteligentes, la recopilación de datos puede realizarse mediante sensores o dispositivos IoT. Las agencias de gobierno, las instituciones de investigación y las empresas suelen proporcionar conjuntos de datos públicos. Los anunciantes utilizan secuencias de clics, envíos de formularios y datos de comportamiento de los usuarios.

Limpieza y transformación de datos

Los datos sin procesar a menudo contienen valores perdidos, duplicados y otros errores. Una vez recopilados los datos, deben limpiarse para corregir estos errores. Esto puede ser tan sencillo como estandarizar formatos, como garantizar que las fechas aparezcan como MM/DD/AAAA. Después de la limpieza, los datos a menudo deben transformarse en un formato que sea más fácil de procesar para los algoritmos. La ingeniería de funciones procesa previamente los datos sin procesar en un formato legible para la máquina. Optimiza el rendimiento del modelo de ML transformando y seleccionando funciones relevantes.

Dividir el conjunto de datos

Para evaluar lo bien que un modelo se generaliza a nuevos datos, el conjunto de datos se suele dividir en tres conjuntos. El primero es un conjunto de entrenamiento que se utiliza para ajustar los parámetros de un modelo para encontrar la mejor coincidencia entre sus predicciones y los datos, un proceso de entrenamiento llamado "ajuste". El segundo es un conjunto de datos de validación que se utiliza para afinar los hiperparámetros y evitar el sobreajuste. Por último, se utiliza un conjunto de datos de prueba para la evaluación final del rendimiento del modelo.

Etiquetado de datos

A veces denominado "anotación humana", el etiquetado de datos es el proceso de añadir etiquetas significativas a los datos sin procesar para que un modelo pueda aprender de ellos. Las etiquetas pueden describir cualquier propiedad de los datos. Por ejemplo, una publicación en las redes sociales que diga "Este producto es terrible" podría etiquetarse como "sentimiento negativo" en un proceso conocido como análisis de sentimiento. Un anotador humano podría etiquetar una foto de un perro como "perro". Una transacción bancaria podría etiquetarse como "fraudulenta".

Otros pasos pueden incluir la estructuración de datos, el aumento y el control de versiones. Algunos flujos de trabajo incluyen un bucle de feedback en el que el análisis revela dónde se necesitan más o mejores datos, o dónde se pueden filtrar los datos inútiles.

Tendencias en los datos de entrenamiento

Dado que los datos son tan importantes como la arquitectura del modelo, se presta mucha atención a la optimización del proceso de entrenamiento de datos. Los datos sintéticos son un área de innovación. En lugar de extraer enormes conjuntos de datos del mundo real, las organizaciones ahora generan datos sintéticos utilizando la propia IA.

Otra tendencia son los conjuntos de datos más pequeños y de mayor calidad. Los grandes modelos no solo necesitan más datos, sino mejores datos. Los científicos de datos están creando conjuntos de datos más pequeños o conjuntos de datos específicos de tareas que son útiles para casos de uso limitados. Por ejemplo, un LLM utilizado en el campo de los servicios legales podría entrenarse exclusivamente en corpus legales para obtener mejores resultados.

El trabajo de preprocesamiento de datos descrito en este artículo se puede realizar automáticamente con IA. Los algoritmos más nuevos ayudan a limpiar los conjuntos de datos, eliminando el texto de baja calidad, el contenido duplicado y el material repetitivo irrelevante, ahorrando tiempo y computación.

Estas son solo algunas tendencias en un campo en rápido desarrollo.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo