Etiquetado de datos

menu icon

Etiquetado de datos

Explore los usos y ventajas del etiquetado de datos, incluyendo los distintos enfoques y las mejores prácticas.

¿Qué es el etiquetado de datos?

El etiquetado o anotación de datos es parte de la etapa de preprocesamiento al desarrollar un modelo de machine learning (ML). Se necesita identificar datos sin procesar (tales como imágenes, archivos de texto o vídeos) y añadir una o más etiquetas para especificar su contexto para los modelos, para que así el modelo de machine learning pueda llevar a cabo predicciones precisas.

El etiquetado de datos sustenta distintos casos de uso de machine learning y deep learning, tales como visión artificial y procesamiento del lenguaje natural (NLP).

¿Cómo funciona el etiquetado de datos?

Las empresas integran procesos, software y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables en los conjuntos de datos, lo que, a su vez, permite la selección de predictores de datos óptimos para modelos de machine learning. Las etiquetas identifican qué vectores de datos son los apropiados para entrenar modelos, con el fin de que los modelos aprendan a hacer las mejores predicciones.

Además de la asistencia automática, las tareas de etiquetado de datos necesitan interacción humana "human-in-the-loop (HITL)". HITL aprovecha la capacidad de juicio de los etiquetadores humanos para crear, entrenar, ajustar y probar modelos de ML. Ayudan a guiar el proceso de etiquetado de datos aportando a los modelos los conjuntos de datos más adecuados para un proyecto dado.

Datos etiquetados frente a datos sin etiquetar

Los ordenadores usan datos etiquetados y sin etiquetar para entrenar modelos de ML, pero, ¿en qué se diferencian?

  • Los datos etiquetados se usan para aprendizaje supervisado, mientras que los datos sin etiquetar se usan para aprendizaje no supervisado.
  • Los datos etiquetados son más difíciles de obtener y de almacenar (requieren tiempo y dinero), mientras que los datos sin etiquetar son más fáciles de obtener y de almacenar.
  • Los datos etiquetados se pueden usar para determinar conocimientos prácticos (como prever tareas), mientras que los datos sin etiquetar cuentan con una utilidad más limitada. Los métodos de aprendizaje sin supervisar pueden ayudar a descubrir nuevos clústeres de datos, lo que permite nuevas categorizaciones al etiquetar.

Los ordenadores también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de datos etiquetados manualmente al introducir un gran conjunto de datos anotados.

Enfoques de etiquetado de datos

El etiquetado de datos es un paso crucial a la hora de desarrollar un modelo de ML de alto rendimiento. Aunque etiquetar puede parecer sencillo, no siempre es fácil de implementar. Debido a esto, las empresas deben considerar varios factores y métodos para determinar el enfoque de etiquetado más adecuado. Como cada método de etiquetado cuenta con sus pros y sus contras, se recomienda efectuar una evaluación pormenorizada de la complejidad de la tarea, así como del tamaño, ámbito y duración del proyecto.

Aquí tiene algunas sugerencias para etiquetar sus datos:

  • Etiquetado interno: el uso de expertos internos en ciencia de datos simplifica el seguimiento, brinda una mayor precisión e incrementa la calidad. Sin embargo, este enfoque suele necesitar más tiempo y favorece más a grandes compañías con abundantes recursos.
  • Etiquetado sintético: este enfoque genera nuevos datos de proyecto en función de conjuntos de datos preexistentes, lo que facilita la calidad de los datos y el aprovechamiento del tiempo. Sin embargo, el etiquetado sintético necesita mucha potencia computacional y esto puede aumentar el precio.
  • Etiquetado programático: este etiquetado de datos automatizado emplea scripts para reducir el consumo de tiempo y la necesidad de anotación humana. Pero la posibilidad de problemas técnicos hace necesario que el HITL siga formando parte del proceso de control de calidad (QA).
  • Externalización: esta puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a colaboradores autónomos puede requerir mucho tiempo. Aunque las plataformas independientes brindan información exhaustiva de los candidatos para facilitar el proceso de selección, contratar equipos de etiquetado de datos gestionados proporciona personal preseleccionado y herramientas de etiquetado ya disponibles.
  • Crowdsourcing: este enfoque es más rápido y económico debido a sus capacidades de microtasking y distribución basada en la web. No obstante, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían según la plataforma de crowdsourcing. Uno de los ejemplos más conocidos de etiquetado de datos por crowdsourcing es Recaptcha. Este proyecto tenía una doble vertiente, ya que controlaba los bots al mismo tiempo que mejoraba la anotación de datos de imágenes. Por ejemplo, un mensaje de Recaptcha puede pedir a un usuario que identifique todas las fotos que contienen un coche para demostrar que es humano y, luego, este programa se puede comprobar a sí mismo basándose en los resultados de otros usuarios. La información de estos usuarios proporcionó una base de datos de etiquetas para un conjunto de imágenes.

Ventajas y desafíos del etiquetado de datos

En general, la contrapartida del etiquetado de datos es que, si bien puede reducir el tiempo de escalado una empresa, suele conllevar un coste. En general, una mayor precisión de datos mejora las predicciones de los modelos, por lo que, a pesar de su elevado coste, el valor que aportan suele merecer la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis exploratorio de datos, así como de las aplicaciones de machine learning (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en plataformas de motores de búsqueda y mejores recomendaciones de producto en plataformas de comercio electrónico. Profundicemos en otras ventajas y desafíos clave:

Ventajas

El etiquetado de datos proporciona a usuarios, equipos y compañías mayor contexto, calidad y usabilidad. Siendo más concretos, puede esperar:

  • Predicciones más precisas: El etiquetado preciso de los datos garantiza un mejor control de calidad en los algoritmos de machine learning, lo que permite que el modelo se entrene y produzca el resultado esperado. Como dice el viejo refrán, "de lo que se come, se cría". Los datos adecuadamente etiquetados  proporcionan la “verdad básica” (por ejemplo, cómo reflejan las etiquetas situaciones del mundo real) para probar e iterar modelos posteriores.
  • Mejor usabilidad de datos: El etiquetado de datos también se puede emplear para mejorar la usabilidad de las variables de datos de un modelo. Por ejemplo, puede reclasificar una variable categórica como variable binaria para que sea más consumible por un modelo.  Agregar datos de esta forma puede optimizar el modelo al reducir el número de variables del mismo o permitir la inclusión de variables de control. Si se usan los datos para crear modelos de computer vision (por ejemplo, poner cuadros delimitadores alrededor de objetos) o modelos de NLP (por ejemplo, clasificar texto para sentimiento en redes sociales), la utilización de datos de alta calidad es una prioridad absoluta.

Desafíos

El etiquetado de datos no está exento de desafíos. Concretamente, algunos de los desafíos más comunes son:

  • Es caro y requiere mucho tiempo: Aunque el etiquetado de datos es fundamental para los modelos de machine learning, puede ser costoso desde el punto de vista tanto de recursos como de tiempo. Si una empresa adopta un enfoque más automatizado, los equipos de ingeniería seguirán teniendo que configurar las canalizaciones de datos antes de procesar los datos, y el etiquetado manual será casi siempre caro y requerirá mucho tiempo.
  • Es propenso al error humano: Estos enfoques de etiquetado también están sujetos a error humano (por ejemplo, errores de código o errores de entrada manual), lo que puede disminuir la calidad de los datos. Esto, a su vez, conduce a un procesamiento y modelado de datos impreciso. Los controles de calidad son fundamentales para mantener la calidad de datos.

Mejores prácticas de etiquetado de datos

Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y eficiencia del etiquetado de datos:

  • Con interfaces de tareas intuitivas y simplificadas se minimiza la carga cognitiva y los cambios de contexto para los etiquetadores humanos.
  • Consenso: Mide la tasa de concordancia entre múltiples etiquetadores (humanos o máquinas). Se calcula una puntuación de consenso dividiendo la suma de las etiquetas coincidentes entre el número total de etiquetas por recurso.
  • Auditoría de etiquetas: Verifica la precisión de las etiquetas y las actualiza según sea necesario.
  • Aprendizaje por transferencia: Toma uno o más modelos previamente entrenados de un conjunto de datos y se aplican a otro. Esto puede incluir aprendizaje multitarea, en el que se aprenden múltiples tareas a la par.
  • Active learning: Una categoría de algoritmos de ML y subconjunto de aprendizaje semisupervisado que ayuda a que los humanos puedan identificar los conjuntos de datos más apropiados. Los enfoques de active learning incluyen:
    • Síntesis de consultas de miembros: genera una instancia sintética y solicita una etiqueta para la misma.
    • Muestreo basado en agrupación: clasifica todas las instancias no etiquetadas según su nivel de capacidad informativa y selecciona las mejores consultas para anotarlas.
    • Muestreo selectivo basado en secuencia: selecciona instancias sin etiquetar una por una y las etiqueta o ignora en función de su capacidad informativa o incertidumbre.

Casos de uso de etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, la calidad y la usabilidad en múltiples contextos en todos los sectores, sus casos de uso más destacados son:

  • Computer vision: Campo de la IA que utiliza datos de entrenamiento para crear un modelo de computer vision que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de objetos. De hecho, IBM ofrece una plataforma de computer vision, Maximo Visual Inspection, que permite a expertos en la materia (SME) etiquetar y entrenar modelos de deep learning que se pueden implementar en el cloud, en dispositivos edge y en centros de datos locales. Computer vision se utiliza en varios sectores, desde el sector energético y los servicios públicos hasta la producción y la automoción. Se espera que este campo emergente alcance un valor de mercado de 48 600 millones de dólares en 2022.
  • Procesamiento del lenguaje natural (NLP): Rama de la IA que combina la lingüística computacional con machine learning estadístico y modelos de deep learning para identificar y marcar secciones de texto importantes que generen datos de entrenamiento para análisis de sentimiento, reconocimiento de nombres de entidades y reconocimiento óptico de caracteres. El NLP se está empleando cada vez más en soluciones de empresa como detección de correo no deseado, traducción automática, reconocimiento de voz, resumen de texto, asistentes virtuales y chatbots, así como sistemas de GPS manejados por voz. Esto hace del NLP un componente crucial en la evolución de los procesos críticos de las empresas.

IBM y etiquetado de datos

IBM ofrece más recursos para ayudar a superar los desafíos del etiquetado de datos y maximizar su experiencia general de etiquetado de datos.

  • IBM Cloud Annotations : herramienta colaborativa de anotación de imágenes de código abierto que emplea modelos de IA para ayudar a que los desarrolladores creen conjuntos de datos de imágenes completamente etiquetados en tiempo real, sin hacer las etiquetas manualmente.
  • IBM Cloud Object Storage: cifrado en reposo y accesible desde cualquier sitio, almacena datos confidenciales y protege la integridad, disponibilidad y confidencialidad de los datos por medio de algoritmos de dispersión de información (IDA) y transformación de todo o nada (AONT).
  • IBM Watson: plataforma de IA con herramientas y servicios NLP que permiten a las empresas optimizar el tiempo de sus empleados, automatizar procesos empresariales complejos y obtener información empresarial crítica para predecir resultados futuros.

Independientemente del tamaño o la cronología de su proyecto, IBM Cloud e IBM Watson pueden mejorar sus procesos de entrenamiento de datos, ampliar sus labores de clasificación de datos y simplificar los modelos de previsión complejos.