Inicio Temas data labeling ¿Qué es el etiquetado de datos?
Explorar la solución de etiquetado de datos de IBM Regístrese para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, es parte de la etapa previa al procesamiento al desarrollar un modelo de machine learning (ML).

El etiquetado de datos requiere la identificación de datos sin procesar (es decir, imágenes, archivos de texto y videos) y luego agregar una o más etiquetas a esos datos para especificar su contexto para los modelos, lo que permite que el modelo de machine learning haga predicciones precisas.

El etiquetado de datos respalda diferentes casos de uso de machine learning y aprendizaje profundo, incluida la visión por computadora y el procesamiento del lenguaje natural (NLP).

El almacenamiento de datos para la IA

Descubra el poder de integrar una estrategia de data lakehouse en su arquitectura de datos, incluyendo mejoras para escalar la IA y oportunidades de optimización de costos.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre IA generativa

¿Cómo funciona el etiquetado de datos?

Las compañías integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y esto, a su vez, permite la selección de predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que se extraerán para el entrenamiento del modelo, donde el modelo aprende a hacer las mejores predicciones.

Junto con la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación "humana (HITL) ". HITL aprovecha el juicio de los "etiquetadores de datos" humanos para crear, capacitar, ajustar y probar modelos de aprendizaje automático. Ayudan a guiar el proceso de etiquetado de datos al alimentar los conjuntos de datos de modelos que son más aplicables a un proyecto determinado.

Datos etiquetados frente a datos sin etiquetar
 

Las computadoras utilizan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?

  • Los datos etiquetados se emplean en el aprendizaje supervisado, mientras que los datos no etiquetados se emplean en el aprendizaje no supervisado.
  • Los datos etiquetados son más difíciles de adquirir y almacenar (es decir, requieren mucho tiempo y son costosos), mientras que los datos sin etiquetar son más fáciles de adquirir y almacenar.
  • Los datos etiquetados se pueden emplear para determinar insight aplicable en la práctica (por ejemplo, tareas de previsión), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisados pueden ayudar a descubrir nuevos grupos de datos, lo que permite nuevas categorizaciones a la hora de etiquetar.

Las computadoras también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar manualmente los datos al tiempo que proporciona un gran conjunto de datos comentados.

Enfoques de etiquetado de datos

El etiquetado de datos es un paso crítico en el desarrollo de un modelo de aprendizaje automático de alto rendimiento. Aunque el etiquetado parece simple, no siempre es fácil de implementar. Como resultado, las compañías deben considerar múltiples factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus beneficios y desventajas, se recomienda realizar una evaluación detallada de la complejidad de la tarea, así como del tamaño, el alcance y la duración del proyecto.

A continuación se muestran algunas rutas para etiquetar sus datos:

  • Etiquetado interno : el uso de expertos internos en ciencia de datos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes compañías con grandes recursos.
  • Etiquetado sintético: este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia del tiempo. Sin embargo, el etiquetado sintético requiere una gran potencia informática, lo que puede aumentar los precios.
  • Etiquetado programático - Este proceso automatizado de etiquetado de datos emplea textos para reducir el consumo de tiempo y la necesidad de anotaciones humanas. Sin embargo, la posibilidad de problemas técnicos requiere que HITL siga siendo parte del proceso de garantía de calidad (QA).
  • Subcontratación: esta puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a los trabajadores autónomos también puede llevar mucho tiempo. Aunque las plataformas de trabajo independiente proporcionan información completa sobre los candidatos para facilitar el proceso de investigación, la contratación de equipos gestionados de etiquetado de datos proporciona personal previamente examinado y herramientas de etiquetado de datos predefinidas.
  • Participación colectiva:este enfoque es más rápido y rentable debido a su capacidad de microtareas y distribución basada en el sitio web. Sin embargo, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían según las plataformas de participación colectiva. Uno de los ejemplos más famosos de etiquetado de datos de participación colectiva es Recaptcha. Este proyecto tenía dos aspectos, ya que controlaba los bots y, al mismo tiempo, mejoraba la anotación de datos de las imágenes. Por ejemplo, un mensaje de Recaptcha pediría a un usuario que identificara todas las fotos que contienen un automóvil para demostrar que eran humanos, y luego este programa podría verificarse a sí mismo en función de los resultados de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para un conjunto de imágenes.
Beneficios y desafíos del etiquetado de datos

La contrapartida general del etiquetado de datos es que, si bien puede reducir el tiempo de escala de una compañía, tiende a tener un costo. Los datos más precisos generalmente mejoran las predicciones del modelo, por lo que, a pesar de su alto costo, el valor que proporcionan suele valer la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis exploratorio de datos, así como las aplicaciones de machine learning (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en todas las plataformas de motores de búsqueda y mejores recomendaciones de productos en las plataformas de comercio electrónico. Profundicemos en otros desafíos y beneficios clave:

Beneficios
 

El etiquetado de datos proporciona a los usuarios, equipos y empresas mayor contexto, calidad y usabilidad. Más específicamente, puede esperar:

  • Predicciones más precisas: El etiquetado preciso de los datos garantiza una mejor calidad de los algoritmos de aprendizaje automático, lo que permite que el modelo se capacite y produzca los resultados esperados. De lo contrario, como dice el viejo refrán, “si entra basura, sale basura”. Los datos correctamente etiquetados proporcionan la "verdad sobre el terreno" (es decir, cómo reflejan las etiquetas los escenarios del "mundo real") para probar e iterar los modelos posteriores.
  • Mejor utilidad de los datos: el etiquetado de datos también puede mejorar la utilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como variable binaria para que un modelo la pueda consumir más.  Agregar datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Ya sea que esté empleando datos para crear modelos de visión artificial (es decir, poner cuadros delimitadores alrededor de los objetos) o modelos NLP (es decir, clasificar el texto según la opinión social), emplear datos de alta calidad es una prioridad.

Desafíos
 

El etiquetado de datos no está exento de desafíos. En particular, algunos de los desafíos más comunes son:

  • Caros y requieren mucho tiempo: si bien el etiquetado de datos es fundamental para los modelos de aprendizaje automático, puede ser costoso tanto desde el punto de vista de los recursos como del tiempo. Si una compañía adopta un enfoque más automatizado, los equipos de ingeniería seguirán necesitando configurar canalizaciones de datos antes de su procesamiento, y el etiquetado manual casi siempre será costoso y llevará mucho tiempo.
  • Propenso a errores humanos: estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de codificación, errores de entrada manual), lo que puede disminuir la calidad de los datos. Esto, a su vez, conduce a un procesamiento y modelado de datos inexactos. Los controles de calidad son esenciales para mantener la calidad de los datos.
Mejores prácticas de etiquetado de datos

Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y la eficiencia del etiquetado de datos:

  • Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
  • Consenso: Mide la tasa de coincidencia entre múltiples etiquetadores (humanos o máquinas). El puntaje de consenso se calcula dividiendo la suma de las etiquetas que coinciden entre el número total de etiquetas por activo.
  • Auditoría de etiquetas: Verifica la exactitud de las etiquetas y las actualiza según sea necesario.
  • Aprendizaje de transferencia: toma uno o más modelos previamente capacitados de un conjunto de datos y los aplica a otro. Esto puede incluir el aprendizaje multitareas, en el que se aprenden varias tareas en conjunto.
  • Aprendizaje activo: una categoría de algoritmos de aprendizaje automático (ML) y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más apropiados. Los enfoques de aprendizaje activo incluyen:
    • Síntesis de consultas de membresía  : genera una instancia sintética y solicita una etiqueta para ella.
    • Ejemplificación basada en grupos : clasifica todas las instancias sin etiquetar de acuerdo con la medición de la informatividad y selecciona las mejores consultas para anotar.
    • Ejemplificación selectiva basada en flujos  : selecciona instancias sin etiquetar una por una y las etiqueta o ignora según su informatividad o incertidumbre.
Casos de uso de etiquetado de datos

Si bien el perfilado de datos mejora la precisión, la calidad y la usabilidad en múltiples contextos en todas las industrias, entre sus casos de uso más destacados, podemos mencionar:

  • Visión artificial: Un campo de la IA que emplea datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de los objetos. De hecho, IBM ofrece una plataforma de visión artificial, Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y capacitar modelos de visión de aprendizaje profundo que se pueden implementar en la nube, dispositivos periféricos y centros de datos locales. La visión artificial se emplea en múltiples industrias, desde la energía y los servicios públicos hasta la manufactura y la industria automotriz. Para 2022, se espera que este campo emergente alcance un valor de mercado de USD 48.6 mil millones.
  • Procesamiento del lenguaje natural (PLN): Una rama de la IA que combina la lingüística computacional con modelos estadísticos, de machine learning y de aprendizaje profundo para identificar y etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de opiniones, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El NLP se emplea cada vez más en soluciones empresariales como la detección de spam, la traducción automática, el reconocimiento de voz, el resumen de textos, los asistentes virtuales y los chatbots, y los sistemas GPS operados por voz. Esto convirtió al NLP en un componente crítico en la evolución de los procesos empresariales de misión crítica.
Soluciones relacionadas
Natural Language Understanding

El servicio de procesamiento del lenguaje natural (NLP) para el análisis avanzado de texto.

Explore la comprensión del lenguaje natural de IBM Watson
Cloud Object Storage

Habilite las cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con el almacenamiento de objetos líder en la industria.

Explore IBM Cloud Object Storage
Inspección visual

Vea, pronostique y evite problemas con el monitoreo remoto avanzado impulsado por IA y la visión artificial para activos y operaciones.

Explore IBM Maximo Application Suite Visual Inspection
Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Reserve una demostración en vivo