¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, forma parte de la fase de preprocesamiento en el desarrollo de un modelo de machine learning (ML). Requiere identificar los datos sin procesar (es decir, imágenes, archivos de texto, vídeos) y luego añadirles una o más etiquetas para especificar su contexto para los modelos, lo que permite que el modelo de machine learning realice predicciones precisas.

El etiquetado de datos forma la base de diferentes casos de uso de machine learning y deep learning, incluida la visión artificial y el procesamiento del lenguaje natural (NLP).

Productos destacados

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

¿Cómo funciona el etiquetado de datos?

Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar los datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos, lo que a su vez permite la selección de predictores de datos óptimos para modelos de ML. Las etiquetas identifican los vectores de datos apropiados que se van a extraer para el entrenamiento de modelos, en el que el modelo aprende luego a realizar las mejores predicciones.

Además de asistencia por máquina, las tareas de etiquetado de datos requieren la participación “human-in-the-loop (HITL)”, que aporta intervención humana. HITL se vale del criterio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de ML. Estos etiquetadores guían el proceso de etiquetado de datos alimentando los conjuntos de datos de modelos que son más aplicables a un proyecto determinado.

Datos etiquetados frente a datos no etiquetados

Los sistemas utilizan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿en qué se diferencian?

Los datos etiquetados se utilizan en el aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en el aprendizaje no supervisado.
Los datos etiquetados son más difíciles de adquirir y almacenar (son laboriosos y caros), mientras que los datos sin etiquetar son más fáciles de adquirir y almacenar.
Los datos etiquetados se pueden usar para determinar información procesable (por ejemplo, tareas de previsión), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisado pueden servir para descubrir nuevos clústeres de datos y facilitar así nuevas categorizaciones al etiquetar.

Los sistemas también pueden utilizar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar manualmente los datos y proporciona un gran conjunto de datos anotados.

Métodos de etiquetado de datos

El etiquetado de datos es un paso fundamental en el desarrollo de un modelo de ML de alto rendimiento. Aunque el etiquetado parece sencillo, no siempre es fácil de implementar. En consecuencia, las empresas deben considerar varios factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se recomienda evaluar de forma detallada la complejidad de la tarea, así como el tamaño, el ámbito y la duración del proyecto.

Estas son algunas vías para etiquetar los datos:

Etiquetado interno: el uso de personal interno experto en ciencia de datos simplifica el rastreo, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
Etiquetado sintético: este enfoque genera nuevos datos de proyecto a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia de tiempo. Sin embargo, el etiquetado sintético requiere una gran potencia computacional, lo que puede aumentar el precio.
Etiquetado programático: este proceso de etiquetado de datos automatizado utiliza scripts para reducir el consumo de tiempo y la necesidad de anotación humana. Sin embargo, sigue siendo necesario que HITL forme parte del proceso de control de calidad (QA), dada la posibilidad de que ocurran problemas técnicos.
Subcontratación: esta opción puede ser óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a trabajadores independientes también puede requerir mucho tiempo. Aunque las plataformas de trabajadores independientes ofrecen información completa sobre los candidatos para facilitar el proceso de revisión, la contratación de equipos de etiquetado de datos gestionado proporciona personal ya revisado y herramientas de etiquetado de datos preintegradas.
Crowdsourcing, o colaboración colectiva: este enfoque es más rápido y rentable debido a su funcionalidad de microtareas y a la distribución basada en web. Sin embargo, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían en función de la plataforma de crowdsourcing. Uno de los ejemplos más famosos de etiquetado de datos de colaboración colectiva es Recaptcha. Este fue un proyecto doble, ya que controlaba los bots y, al mismo tiempo, mejoraba la anotación de datos de las imágenes. Por ejemplo, una solicitud de Recaptcha solicitaba a un usuario que identificase todas las fotos que contenían un automóvil para demostrar que era humano, y luego este programa realizaba la comprobación por sí mismo en función de los resultados de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para una selección de imágenes.

Ventajas y desafíos del etiquetado de datos

En general, la contrapartida del etiquetado de datos es que, aunque puede reducir el tiempo necesario para escalar una empresa, tiende a tener ciertas consecuencias. Unos datos más precisos suelen implicar una mejora de las predicciones del modelo, de modo que, a pesar de su alto coste, el valor que proporciona hace que la inversión valga la pena. Dado que la anotación de datos proporciona más contexto para los conjuntos de datos, mejora el rendimiento del análisis de datos exploratorio, además de las aplicaciones de machine learning (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en las plataformas de búsqueda, y mejores recomendaciones de producto en las plataformas de comercio electrónico. Veamos con más detalle otras ventajas y desafíos clave:

Ventajas

El etiquetado de datos ofrece a usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. Más específicamente, esto es lo que se puede obtener:

Predicciones más precisas: el etiquetado de datos preciso garantiza un mejor control de calidad dentro de los algoritmos de machine learning, lo que permite que el modelo se entrene y genere el resultado esperado. De lo contrario, si los datos no son de buena calidad, el resultado tampoco lo será; como reza el dicho, "lo que das es lo que recibes". Los datos debidamente etiquetados proporcionan la "verdad terreno" (es decir, cómo reflejan las etiquetas los escenarios del "mundo real") para las pruebas y las iteraciones de los modelos posteriores.
Mejor usabilidad de datos: el etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, podría reclasificar una variable categórica como una variable binaria para hacerla más consumible para un modelo. Agregar datos de esta manera puede optimizar el modelo al reducir el número de variables de modelo o habilitar la inclusión de variables de control. Tanto si está utilizando datos para crear modelos de visión artificial (es decir, colocar cuadros delimitadores alrededor de objetos) como modelos NLP (es decir, clasificar texto para la opinión social), utilizar datos de alta calidad es una prioridad máxima.

Retos

El etiquetado de datos no está exento de desafíos. Estos son algunos de los más comunes, en particular:

Es caro y laborioso: aunque el etiquetado de datos es fundamental para los modelos de machine learning, puede encarecer el coste tanto a nivel de tiempo como de recursos. Aunque una empresa adopte un enfoque más automatizado, los equipos de ingeniería aún necesitarán configurar conductos de datos antes del proceso de datos, y el etiquetado manual casi siempre será caro y laborioso.
Propenso a errores humanos: estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de codificación, errores de entrada manual), que pueden disminuir la calidad de los datos. Esto, a su vez, genera imprecisiones en el proceso y el modelado de datos. Las comprobaciones del control de calidad son esenciales para mantener la calidad de los datos.

Prácticas recomendadas de etiquetado de datos

Sea cual sea el enfoque, las prácticas recomendadas siguientes optimizan la exactitud y la eficiencia del etiquetado de datos:

Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
Consenso: mide el índice de acuerdo entre varios etiquetadores (humanos o máquinas). La puntuación de consenso se calcula dividiendo la suma de etiquetas que coinciden entre el número total de etiquetas por activo.
Auditoría de etiquetas: verifica la exactitud de las etiquetas y las actualiza según sea necesario.
Transferencia del aprendizaje: toma uno o más modelos previamente entrenados de un conjunto de datos y los aplica a otro. Puede incluir aprendizaje multitarea, en el que se aprenden varias tareas en tándem.
Aprendizaje activo: una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más apropiados. Entre los métodos de aprendizaje activo, se incluyen:
- Síntesis de consulta de pertenencia: genera una instancia sintética y solicita una etiqueta para ella.
- Muestreo basado en agrupaciones: clasifica todas las instancias sin etiquetar según su medida de capacidad informativa y selecciona las mejores consultas para anotar.
- Muestreo selectivo basado en secuencias: selecciona las instancias sin etiquetar una por una, y las etiqueta o las ignora en función de su capacidad informativa o incertidumbre.

Casos de uso de etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, la calidad y la usabilidad en varios contextos en todas las industrias, estos son algunos de sus casos de uso más destacados:

Visión artificial: un campo de la IA que utiliza los datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica los puntos clave de una imagen y detecta la ubicación de objetos. De hecho, IBM ofrece una plataforma de visión artificial, Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de deep learning que se pueden desplegar en la nube, en dispositivos periféricos y en centros de datos locales. La visión artificial se utiliza en variedad de sectores, desde la energía y los servicios públicos hasta la fabricación y la automoción. Para 2022, se espera que este campo emergente alcance un valor mercado de 48 600 millones de dólares.
Procesamiento del lenguaje natural (PNL): una rama de la IA que combina la lingüística computacional con modelos estadísticos, de machine learning y de deep learning para identificar y etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de opinión, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El PNL se utiliza cada vez más en soluciones empresariales, como la detección de correo no deseado, la traducción automática, el reconocimiento del habla, el resumen de texto, los asistentes virtuales y chatbots y los sistemas GPS operados por voz. Así, el PNL se ha convertido en un componente indispensable en la evolución de los procesos de negocio fundamentales.

Soluciones relacionadas

Natural Language Understanding

El servicio de procesamiento de lenguaje natural (NLP) para el análisis de texto avanzado

Explore IBM Watson Natural Language Understanding

Almacenamiento de objetos en la nube

Habilite las cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con el almacenamiento de objetos en local líder del sector

Explore IBM Cloud Object Storage

Inspección visual

Consulte, prevea y evite problemas con la supervisión remota avanzada basada en IA y la visión computacional para activos y operaciones

Explore IBM Maximo Application Suite Visual Inspection

Dé el siguiente paso

IBM ofrece más recursos para ayudar a superar los desafíos del etiquetado de datos y maximizar su experiencia general de etiquetado de datos. Sea cual sea el tamaño o la línea temporal de su proyecto, IBM Cloud e IBM Watson pueden mejorar sus procesos de entrenamiento de datos, ampliar sus iniciativas de clasificación de datos y simplificar los modelos de predicción complejos.

Explore Watson Natural Language Understanding