¿Qué son los datos de entrenamiento?

¿Qué son los datos de entrenamiento?

Los datos de entrenamiento son información que se utiliza para enseñar a un modelo de machine learning a hacer predicciones, reconocer patrones o generar contenido. Después de que un algoritmo procesa una gran cantidad de datos, se considera que están "entrenados" y se pueden utilizar para muchas aplicaciones. Pero sin datos de entrenamiento, ni siquiera los algoritmos sofisticados son útiles, como un estudiante brillante que no estudió el material para un examen.

Todo el machine learning comienza con un conjunto de datos o una colección de datos. Un conjunto de datos podría estar compuesto por hojas de cálculo, secuencias de video, páginas web, archivos PDF o cualquier otro tipo de datos. En términos generales, cuantos más datos de entrenamiento se introduzcan en un modelo, mejor será su rendimiento. Pero no se trata solo de la cantidad de datos: la calidad de los datos también es muy importante.

Los datos de entrenamiento de IA consisten en características, también llamadas atributos, que describen datos. Por ejemplo, un conjunto de datos sobre un equipamiento de fábrica puede incluir temperatura, velocidad de oscilación y hora de la última reparación. Estos datos se "alimentan" a un algoritmo de machine learning, un conjunto de instrucciones expresadas a través de un fragmento de código que procesa una entrada de datos para crear resultados. Alimentar datos al algoritmo significa proporcionarle datos de entrada, que luego se procesan y analizan para generar la salida. Un modelo matemático entrenado es el resultado de este proceso. Estos modelos son la base de casi toda la innovación reciente en inteligencia artificial.

Algunos modelos se utilizan para el procesamiento de lenguaje natural (PLN), que se puede emplear para enseñar a las máquinas a leer y hablar en lenguaje humano. La visión artificial permite que otros modelos interpreten la información visual. Pero todo comienza con los datos de entrenamiento.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de entrenamiento

Los diferentes tipos de algoritmos de aprendizaje utilizan diferentes enfoques para entrenar los datos. El aprendizaje supervisado utiliza datos etiquetados, mientras que el aprendizaje no supervisado utiliza datos no etiquetados. El aprendizaje semisupervisado combina ambos.

Modelos de entrenamiento para el aprendizaje supervisado

El aprendizaje supervisado es una técnica de machine learning que utiliza conjuntos de datos etiquetados para entrenar modelos de IA para identificar los patrones subyacentes en todos los puntos de datos. Los datos etiquetados incluyen características y etiquetas, salidas correspondientes que el modelo utiliza para comprender la relación entre los dos.

Muchas empresas contratan grandes equipos de anotadores de datos humanos, que a veces son asistidos por máquinas. Estos anotadores a menudo requieren experiencia en el dominio para garantizar que los datos estén etiquetados correctamente. Por ejemplo, al etiquetar datos legales, los anotadores pueden necesitar experiencia en derecho. El proceso de utilizar anotadores humanos para ayudar a garantizar un etiquetado adecuado a veces se denomina "humano en el bucle".

Un ejemplo clásico de aprendizaje supervisado es la detección de spam. Para enseñar a un modelo a identificar el spam, uno podría exponerlo a un conjunto de datos compuesto por miles de correos electrónicos, cada uno etiquetado por humanos como "spam" o "no spam". El modelo revisaría los correos electrónicos, notando varios patrones. Por ejemplo, los correos electrónicos que tienen la palabra "gratis" en la línea de asunto tienen más probabilidades de ser spam. El modelo calcularía la probabilidad estadística de que la palabra "gratis" en la línea de asunto corresponda a la etiqueta "spam". Luego, cuando se le da un nuevo correo electrónico sin etiqueta, el modelo puede aplicar ese cálculo, junto con muchos otros, para determinar si el nuevo correo electrónico es spam o no.

Este tipo de machine learning se denomina "supervisado" porque implica supervisión humana para etiquetar todos esos datos.

Modelos de entrenamiento para el aprendizaje no supervisado

Los modelos de aprendizaje no supervisados funcionan por sí solos para descubrir la estructura inherente de los datos sin etiquetar. Mientras que el aprendizaje supervisado es útil para asignar entradas a salidas, el aprendizaje no supervisado es más adecuado para encontrar patrones, estructuras y relaciones dentro de los propios datos, sin ninguna orientación sobre qué buscar.

Por ejemplo, imagine que un anunciante quiere agrupar a los clientes en distintos segmentos en función del comportamiento de compra sin conocer las categories de antemano. Un conjunto de datos sin etiquetar puede incluir características como frecuencia de compra, valor promedio de pedido, tipos de productos comprados y tiempo desde la última compra, pero no tiene columnas para "tipo de cliente". Eso es lo que el modelo está tratando de averiguar. Se podría utilizar un algoritmo de agrupamiento para identificar tres clústeres:

  1. Compradores frecuentes que gastan mucho
     

  2. Compradores ocasionales con descuento
     

  3. Clientes nuevos o únicos

El modelo aprendió los patrones por sí solo e hizo estas agrupaciones directamente a partir del conjunto de datos de entrenamiento.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Preparación de datos de entrenamiento

Los datos nos rodean. La población mundial genera inmensas cantidades de datos cada segundo del día. Pero los datos sin procesar generalmente no son útiles para el entrenamiento de modelos. El aseguramiento de la calidad es crítico. En primer lugar, los datos deben procesarse previamente a través de un pipeline de datos de varios pasos. Este puede ser un proceso complicado para los científicos de datos, que comprende una gran parte del alcance de un proyecto de machine learning, que requiere herramientas e infraestructura sofisticadas de ciencia de datos. Los datos de mala calidad pueden introducir ruido y sesgo, lo que impide que los modelos de machine learning hagan predicciones precisas, pero los datos de entrenamiento de alta calidad permiten que los modelos produzcan resultados más confiables en innumerables caso de uso, desde la automatización hasta la traducción y la toma de decisiones basada en datos.

Recopilación de datos

Primero se deben recopilar datos. Para los sistemas de IA, como los vehículos autónomos o los hogares inteligentes, la recopilación de datos puede realizarse mediante sensores o dispositivos IoT. Las agencias gubernamentales, las instituciones de investigación y las empresas a menudo proporcionan conjuntos de datos públicos. Los anunciantes utilizan flujos de clics, envíos de formularios y datos de comportamiento de los usuarios.

Limpieza y transformación de datos

Los datos sin procesar a menudo contienen valores faltantes, duplicados y otros errores. Una vez recopilados los datos, deben limpiarse para corregir estos errores. Esto puede ser tan sencillo como estandarizar los formatos, como garantizar que las fechas aparezcan como MM/DD/AAAA. Después de la limpieza, a menudo los datos deben transformarse a un formato que sea más fácil de procesar para los algoritmos. La ingeniería de características preprocesa los datos sin procesar en un formato legible por máquina. Optimiza el rendimiento del modelo de ML mediante la transformación y selección de características relevantes.

Dividir el conjunto de datos

Para evaluar qué tan bien se generaliza un modelo a nuevos datos, el conjunto de datos generalmente se divide en tres conjuntos. El primero es un conjunto de entrenamiento que se utiliza para ajustar los parámetros de un modelo para encontrar la mejor coincidencia entre sus predicciones y los datos, un proceso de entrenamiento llamado "ajuste". El segundo es un conjunto de datos de validación que se utiliza para ajustar los hiperparámetros y evitar el sobreajuste. Finalmente, se utiliza un conjunto de datos de prueba para la evaluación final del rendimiento del modelo.

Etiquetado de datos

A veces llamado "anotación humana", el etiquetado de datos es el proceso de agregar etiquetas significativas a los datos sin procesar para que un modelo pueda aprender de ellos. Las etiquetas pueden describir cualquier propiedad de los datos. Por ejemplo, una publicación en las redes sociales que diga "Este producto es terrible" podría etiquetarse como "sentimiento negativo" en un proceso conocido como análisis de sentimiento. Un anotador humano podría etiquetar una foto de un perro como "perro". Una transacción bancaria podría etiquetarse como "fraudulenta".

Otros pasos pueden incluir la estructuración de datos, el aumento y el control de versiones. Algunos flujos de trabajo incluyen un ciclo de feedback en el que el análisis revela dónde se necesitan más o mejores datos, o dónde se pueden filtrar los datos inútiles.

Tendencias en los datos de entrenamiento

Debido a que los datos son tan importantes como la arquitectura del modelo, se presta mucha atención a la optimización del proceso de entrenamiento de datos. Los datos sintéticos son un área de innovación. En lugar de extraer enormes conjuntos de datos del mundo real, las organizaciones ahora están generando datos sintéticos utilizando la propia IA.

Otra tendencia son los conjuntos de datos más pequeños y de mayor calidad. Los grandes modelos no solo necesitan más datos, sino mejores datos. Los científicos de datos están creando conjuntos de datos más pequeños o conjuntos de datos específicos de tareas que son útiles para casos de uso limitados. Por ejemplo, un LLM utilizado en el campo de los servicios legales podría entrenarse exclusivamente en corpus legales para obtener mejores resultados.

El trabajo de preprocesamiento de datos descrito en este artículo se puede realizar automáticamente con IA. Los algoritmos más nuevos ayudan a limpiar los conjuntos de datos, eliminando el texto de baja calidad, el contenido duplicado y el material repetitivo irrelevante, ahorrando tiempo y computación.

Estas son solo algunas tendencias en un campo en rápido desarrollo.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo