Ilustración con collage de pictogramas de nubes, gráfico circular y pictogramas gráficos sobre lo siguiente
¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, forma parte de la etapa de preprocesamiento cuando se desarrolla un modelo de machine learning (ML).

El etiquetado de datos requiere la identificación de los datos en bruto (es decir, imágenes, archivos de texto, vídeos) y, a continuación, la adición de una o más etiquetas a esos datos para especificar su contexto para los modelos, lo que permite al modelo de aprendizaje automático hacer predicciones precisas.

El etiquetado de datos respalda diferentes casos de uso de aprendizaje automático y aprendizaje profundo, incluida la visión artificial y el procesamiento del lenguaje natural (PLN).

¿Cómo funciona el etiquetado de datos?

Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar las variables dentro de los conjuntos de datos, y esto, a su vez, permite seleccionar los predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que deben extraerse para el entrenamiento del modelo, donde luego el modelo aprende a hacer las mejores predicciones.

Además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación de “humanos en el circuito” (HITL). HITL aprovecha el criterio de los “etiquetadores de datos” humanos para crear, entrenar, ajustar y probar modelos de aprendizaje automático. Ayudan a guiar el proceso de etiquetado de los datos al alimentar los modelos con los conjuntos de datos más aplicables a un proyecto determinado.

Datos etiquetados frente a datos sin etiquetar
 

Los ordenadores utilizan datos etiquetados y no etiquetados para entrenar modelos ML, pero ¿cuál es la diferencia?

  • Los datos etiquetados se utilizan en el aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en el aprendizaje no supervisado.
  • Los datos etiquetados son más difíciles de adquirir y almacenar (p. ej. requieren mucho tiempo y son costoso), mientras que los datos sin etiquetar son más fáciles de adquirir y almacenar.
  • Los datos etiquetados pueden utilizarse para determinar perspectivas procesables (p. ej. tareas de previsión), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisado pueden ayudar a descubrir nuevos grupos de datos, lo que permite nuevas categorizaciones a la hora de etiquetar.

Los ordenadores también pueden utilizar datos combinados para el aprendizaje semisupervisado, que reduce la necesidad de datos etiquetados manualmente al tiempo que proporciona un gran conjunto de datos anotados.

Enfoques de etiquetado de datos

El etiquetado de datos es un paso crucial en el desarrollo de un modelo de ML de alto rendimiento. Aunque el etiquetado parece simple, no siempre es fácil de implementar. Como resultado, las empresas deben considerar múltiples factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se aconseja una evaluación detallada de la complejidad de la tarea, así como del tamaño, alcance y duración del proyecto.

Estas son algunas vías para etiquetar los datos:

  • Etiquetado interno : el uso de expertos internos en ciencia de datos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
  • Etiquetado sintético: este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia del tiempo. Sin embargo, el etiquetado sintético exige una gran potencia informática, lo que puede aumentar los precios.
  • Etiquetado programático: este proceso automatizado de etiquetado de datos utiliza scripts para reducir el consumo de tiempo y la necesidad de anotación humana. Sin embargo, la posibilidad de problemas técnicos requiere que HITL permanezca como parte del proceso de aseguramiento de la calidad (QA).
  • Subcontratación: puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a los autónomos también puede llevar mucho tiempo. Aunque las plataformas de trabajo independiente brindan información completa sobre los candidatos para facilitar el proceso de selección, la contratación de equipos de etiquetado de datos administrados proporciona personal previamente examinado y herramientas de etiquetado de datos prediseñadas.
  • Colaboración abierta distribuida: este enfoque es más rápido y rentable debido a su capacidad de microtarea y distribución basada en la web. Sin embargo, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían según las plataformas de crowdsourcing. Uno de los ejemplos más famosos de etiquetado de datos crowdsourced es Recaptcha. Este proyecto tenía dos vertientes, ya que controlaba los bots y, al mismo tiempo, mejoraba la anotación de datos de las imágenes. Por ejemplo, un aviso Recaptcha pediría a un usuario que identificara todas las fotos que contengan un coche para demostrar que es humano, y luego este programa podría comprobarse a sí mismo basándose en los resultados de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para una matriz de imágenes.
Beneficios y desafíos del etiquetado de datos

La desventaja general del etiquetado de datos es que, aunque puede disminuir el tiempo de escala de una empresa, tiende a tener un coste. Los datos más precisos generalmente mejoran las predicciones del modelo, por lo que, a pesar de su alto costo, el valor que proporciona suele valer la pena la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis de datos exploratorio, así como de las aplicaciones de machine learning (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más pertinentes en las plataformas de los motores de búsqueda y mejores recomendaciones de productos en las plataformas de comercio electrónico. Profundicemos en otros beneficios y desafíos clave:

Beneficios
 

El etiquetado de datos proporciona a los usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. En concreto:

  • Predicciones más precisas: el etiquetado preciso de los datos garantiza una mejor garantía de calidad dentro de los algoritmos de machine learning, lo que permite que el modelo se entrene y produzca el resultado esperado. De lo contrario, como dice el viejo refrán, “basura que entra, basura que sale”. Los datos correctamente etiquetados proporcionan la "verdad sobre el terreno" (es decir, cómo reflejan las etiquetas los escenarios del "mundo real") para probar e iterar los modelos posteriores.
  • Mejor usabilidad de los datos: el etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como una variable binaria para hacerla más consumible para un modelo.  La agregación de datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Tanto si está utilizando datos para crear modelos de visión artificial (es decir, colocando cuadros delimitadores alrededor de los objetos) o modelos de PNL (es decir, clasificar el texto según el sentimiento social), utilizar datos de alta calidad es una prioridad máxima.

Desafíos
 

El etiquetado de datos no está exento de desafíos. En particular, algunos de los desafíos más comunes son:

  • Costoso y lento: aunque el etiquetado de datos es crucial para los modelos de machine learning, puede ser costoso tanto desde el punto de vista de los recursos como del tiempo. Si una empresa adopta un enfoque más automatizado, los equipos de ingeniería seguirán necesitando configurar canalizaciones de datos antes del procesamiento de datos, y el etiquetado manual casi siempre será costoso y llevará mucho tiempo.
  • Propenso a errores humanos: estos enfoques de etiquetado también están sujetos a errores humanos (p. ej. errores de codificación, errores de entrada manual), lo que puede disminuir la calidad de los datos. Esto, a su vez, conduce a un procesamiento y modelado de datos inexactos. Los controles de aseguramiento de la calidad son esenciales para mantener la calidad de los datos.
Prácticas recomendadas para el etiquetado de datos

Independientemente del enfoque, las siguientes prácticas recomendadas optimizan la precisión y la eficiencia del etiquetado de datos:

  • Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
  • Consenso: mide la tasa de concordancia entre múltiples etiquetadoras (humanas o mecánicas). Una puntuación de consenso se calcula al dividir la suma de las etiquetas que concuerdan por el número total de etiquetas por activo.
  • Auditoría de etiquetas: verifica la exactitud de las etiquetas y las actualiza según sea necesario.
  • Transferencia de aprendizaje: toma uno o varios modelos previamente entrenados de un conjunto de datos y los aplica a otro. Esto puede incluir el aprendizaje multitarea, en el que se aprenden varias tareas al mismo tiempo.
  • Aprendizaje activo: una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más adecuados. Los enfoques de aprendizaje activo incluyen:
    • Síntesis de consultas de pertenencia : genera una instancia sintética y solicita una etiqueta para ella.
    • Muestreo basado en grupos: clasifica todas las instancias sin etiquetar según la medición de informatividad y selecciona las mejores consultas para anotar.
    • Muestreo selectivo basado en flujos:  selecciona las instancias sin etiquetar una por una y las etiqueta o las ignora en función de su carácter informativo o incertidumbre.
Casos de uso de etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, la calidad y la facilidad de uso en múltiples contextos de todos los sectores, sus casos de uso más destacados son:

  • Visión artificial: un campo de la IA que utiliza datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de los objetos. De hecho, IBM ofrece una plataforma de visión artificial, Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de deep learning que se pueden implementar en la nube, dispositivos periféricos y centros de datos locales. La visión artificial se utiliza en múltiples industrias, desde la energía y los servicios públicos hasta la fabricación y la automoción. Para 2022, se espera que este campo en alza alcance un valor de mercado de 48 600 millones de dólares.
  • Procesamiento del lenguaje natural (PLN): una rama de la IA que combina la lingüística computacional con modelos estadísticos, de machine learning y de deep learning para identificar y etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de sentimientos, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El PLN se utiliza cada vez más en soluciones empresariales como la detección de spam, la traducción automática, el reconocimiento de voz, el resumen de textos, los asistentes virtuales y los chatbots, y los sistemas GPS operados por voz. Esto ha convertido al PLN en un componente crucial en la evolución de los procesos empresariales de misión crítica.
Soluciones relacionadas
Natural Language Understanding

El servicio de procesamiento del lenguaje natural (PLN) para el análisis avanzado de textos.

Explore la comprensión del lenguaje natural de IBM watsonx
Cloud object storage

Habilite las cargas de trabajo de IA y consolide el almacenamiento primario y secundario de big data con un almacenamiento de objetos rentable y líder en el sector.

Explorar IBM Cloud Object Storage
Inspección visual

Vea, prevea y evite problemas con la monitorización remota avanzada con IA y computer vision para activos y operaciones.

Explore la inspección visual de IBM Maximo Application Suite
Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Solicite una demostración en directo