Etiquetado de datos
fondo negro y azul
Etiquetado de datos

Explore los usos y beneficios del etiquetado de datos, incluidos los diferentes enfoques y las mejores prácticas.

Productos destacados

IBM Watson Natural Language Understanding

IBM Cloud Object Storage


¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, es parte de la etapa de pretratamiento en el desarrollo de un modelo de aprendizaje automático (ML). Requiere la identificación de datos sin procesar (es decir, imágenes, archivos de texto, videos) y luego la adición de una o más etiquetas a esos datos para especificar su contexto para los modelos, lo que permite que el modelo de aprendizaje automático realice predicciones precisas.

El etiquetado de datos apuntala diferentes casos de uso de aprendizaje automático y aprendizaje profundo, incluida la visión artificial y el procesamiento de lenguaje natural (NLP).


¿Cómo funciona el etiquetado de datos?

Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Los datos de entrenamiento se convierten en la base de los modelos de aprendizaje automático. Las etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y esto, a su vez, permite la selección de predictores de datos óptimos para los modelos ML. Las etiquetas identifican los vectores de datos apropiados que se deben extraer para el entrenamiento del modelo, donde, posteriormente, el modelo aprende a hacer las mejores predicciones.

Junto con la asistencia de la máquina, las tareas de etiquetado de datos requieren la intervención humana (HITL). El modelo HITL aprovecha el criterio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de aprendizaje automático. Ayudan a guiar el proceso de etiquetado de datos al alimentar los conjuntos de datos de modelos que son más aplicables a un proyecto determinado.

Datos etiquetados vs. datos no etiquetados
 

Las computadoras usan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?

  • Los datos etiquetados se utilizan en aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en aprendizaje sin supervisión .
  • Los datos etiquetados son más difíciles de adquirir y almacenar (es decir, requieren mucho tiempo y son costosos), mientras que los datos no etiquetados son más fáciles de adquirir y almacenar.
  • Los datos etiquetados se pueden usar para determinar información procesable (por ejemplo, tareas de pronóstico), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisados pueden ayudar a descubrir nuevos grupos de datos, lo que permite nuevas categorizaciones al momento de etiquetar.

Las computadoras también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de datos etiquetados manualmente al tiempo que proporciona un gran conjunto de datos anotados.


Enfoques de etiquetado de datos

El etiquetado de datos es un paso fundamental en el desarrollo de un modelo de aprendizaje automático de alto rendimiento. Aunque el etiquetado parece simple, no siempre es fácil de implementar. Por consiguiente, las empresas deben considerar múltiples factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se recomienda una evaluación detallada de la complejidad de la tarea, así como del tamaño, alcance y duración del proyecto.

A continuación, se muestran algunas rutas para etiquetar sus datos:

  • Etiquetado interno : Recurrir a expertos en ciencia de datos internos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
  • Etiquetado sintético : Este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia del tiempo. Sin embargo, el etiquetado sintético requiere una gran potencia informática, lo que aumenta los precios.
  • Etiquetado programático : Este proceso de etiquetado de datos automatizado utiliza scripts para reducir el consumo de tiempo y la necesidad de anotaciones humanas. Sin embargo, la posibilidad de problemas técnicos requiere que HITL siga siendo parte del proceso de aseguramiento de la calidad (QA).
  • Subcontratación : Puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a trabajadores autónomos también puede llevar mucho tiempo. Si bien las plataformas de trabajo independiente brindan información completa sobre los candidatos para facilitar el proceso de investigación, la contratación de equipos de etiquetado de datos gestionados proporciona personal previamente examinado y herramientas de etiquetado de datos predefinidas.
  • Crowdsourcing : Este enfoque es más rápido y rentable debido a su capacidad de externalizar microtareas y a la distribución basada en la web. Sin embargo, la calidad de los trabajadores, el aseguramiento de la calidad y la gestión de proyectos varían según las plataformas de crowdsourcing. Uno de los ejemplos más famosos de etiquetado de datos mediante crowdsourcing, o externalización abierta de tareas, es Recaptcha. Este proyecto fue doble en el sentido de que controlaba los bots y al mismo tiempo mejoraba la anotación de datos de las imágenes. Por ejemplo, un mensaje de Recaptcha pedía al usuario que identificara todas las fotos en las que hubiera un automóvil para demostrar que era un ser humano, y luego este programa podía verificarse a sí mismo en función de los resultados de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para una serie de imágenes.

Beneficios y desafíos del etiquetado de datos

La compensación general del etiquetado de datos es que, si bien puede reducir el tiempo de escalado de una empresa, tiende a tener un costo. Los datos más precisos generalmente mejoran las predicciones del modelo, por lo que, a pesar de su alto costo, el valor que proporcionan generalmente justifica la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis exploratorio de datos, así como las aplicaciones de aprendizaje automático (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en las plataformas de los motores de búsqueda y mejores recomendaciones de productos en las plataformas de comercio electrónico. Profundicemos en otros beneficios y desafíos clave:

Beneficios
 

El etiquetado de datos proporciona a los usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. Más específicamente, puede esperar:

  • Predicciones más precisas:  El etiquetado de datos preciso garantiza un mejor aseguramiento de la calidad dentro de los algoritmos de aprendizaje automático, lo que permite que el modelo se entrene y produzca el resultado esperado. De lo contrario, como dice el viejo refrán, "si entra basura, sale basura". Los datos debidamente etiquetados  proporcionan los "datos reales" (es decir, cómo las etiquetas reflejan escenarios del "mundo real") para probar e iterar modelos posteriores.
  • Mejor usabilidad de datos:  El etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como variable binaria para que sea más consumible para un modelo.  La agregación de datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Ya sea que esté utilizando datos para crear modelos de visión artificial (es decir, colocando cuadros delimitadores alrededor de objetos) o modelos de NLP (es decir, clasificando texto para las emociones en redes social), la utilización de datos de alta calidad es de máxima prioridad.

Retos
 

El etiquetado de datos no está exento de desafíos. En particular, algunos de los desafíos más comunes son:

  • Costoso y prolongado:  Si bien el etiquetado de datos es fundamental para los modelos de aprendizaje automático, puede resultar costoso en recursos y tiempo. Si una empresa adopta un enfoque más automatizado, aun así los equipos de ingeniería necesitarán configurar los pipelines de datos antes del tratamiento de datos, y el etiquetado manual casi siempre será costoso y prolongado.
  • Propenso a errores humanos:  Estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de codificación, errores de entrada manual), que pueden disminuir la calidad de los datos. Esto, a su vez, conduce a un tratamiento y modelado de datos inexactos. Los controles de aseguramiento de la calidad son esenciales para mantener la calidad de los datos.

Mejores prácticas de etiquetado de datos

Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y la eficiencia del etiquetado de datos:

  • Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
  • Consenso:  Mide la tasa de concordancia entre varios etiquetadores (humanos o mecánicos). Una puntuación de consenso se calcula dividiendo la suma de las etiquetas concordantes entre el número total de etiquetas por activo.
  • Auditoría de etiquetas:  Verifica la precisión de las etiquetas y las actualiza según sea necesario.
  • Transferencia de aprendizaje:  Toma uno o más modelos previamente entrenados de un conjunto de datos y los aplica a otro. Esto puede incluir el aprendizaje multitarea, en el que se aprenden varias tareas en conjunto.
  • Aprendizaje activo:  Una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más apropiados. Los enfoques de aprendizaje activo incluyen:
    • Síntesis de consultas de membresía : Genera una instancia sintética y solicita una etiqueta para ella.
    • Muestreo basado en grupos : Clasifica todas las instancias sin etiquetar de acuerdo con la medición de la capacidad informativa y selecciona las mejores consultas que se pueden anotar.
    • Muestreo selectivo basado en flujo : Selecciona las instancias sin etiquetar una por una y las etiqueta o ignora según su capacidad informativa o incertidumbre.

Casos de uso de etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, calidad y usabilidad en múltiples contextos en todas las industrias, sus casos de uso más destacados incluyen:

  • Visión artificial:  Un campo de la IA que utiliza datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de objetos. De hecho, IBM ofrece una plataforma de visión artificial, Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de aprendizaje profundo que se pueden implementar en la nube, en dispositivos de borde y en centros de datos locales. La visión artificial se utiliza en múltiples industrias, desde la energía y los servicios públicos hasta la fabricación y la industria automotriz. Para 2022, se espera que este campo emergente alcance un valor de mercado de $48,6 mil millones.
  • Procesamiento de lenguaje natural (NLP):  Una rama de la inteligencia artificial que combina la lingüística computacional con modelos estadísticos, de aprendizaje automático y de aprendizaje profundo para identificar y etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de emociones, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El NLP se utiliza cada vez más en soluciones empresariales como detección de spam, traducción automática, reconocimiento de voz, resumen de texto, asistentes virtuales y chatbots, y sistemas GPS operados por voz. Esto ha convertido al NLP en un componente fundamental en la evolución de los procesos comerciales de importancia crítica.

IBM y etiquetado de datos

IBM ofrece más recursos para ayudar a superar los desafíos del etiquetado de datos y maximizar su experiencia general de etiquetado de datos.

  • IBM Cloud Annotations (enlace externo a ibm.com): Una herramienta colaborativa de anotación de imágenes de código abierto que utiliza modelos de inteligencia artificial para ayudar a los desarrolladores a crear conjuntos de datos de imágenes completamente etiquetados, en tiempo real, sin dibujar las etiquetas manualmente.
  • IBM Cloud Object Storage : Cifrado en reposo y accesible desde cualquier lugar, almacena datos confidenciales y protege la integridad, disponibilidad y confidencialidad de los datos a través del algoritmo de dispersión de información (IDA) y la transformación de todo o nada (AONT).
  • IBM Watson : Plataforma de inteligencia artificial con herramientas y servicios impulsados por NLP que permiten a las organizaciones optimizar el tiempo de los empleados, automatizar procesos comerciales complejos y obtener conocimientos comerciales críticos para predecir resultados futuros.

No importa el tamaño o el cronograma de su proyecto, IBM Cloud e IBM Watson pueden mejorar sus procesos de entrenamiento de datos, expandir sus esfuerzos de clasificación de datos y simplificar modelos de pronóstico complejos.


Soluciones relacionadas

Comprensión del lenguaje natural

Utilice el servicio de procesamiento de lenguaje natural (NLP) para la analítica de texto avanzada.


Almacenamiento de objetos en la nube

Habilite cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con un almacenamiento de objetos en las instalaciones líder en la industria.


Servicios de almacenamiento de objetos en la nube

Servicio de almacenamiento en la nube flexible, rentable y escalable para datos no estructurados, diseñado para brindar durabilidad, resiliencia y seguridad.


Inspección visual

Descubra, prevea y prevenga problemas con la supervisión remota avanzada basada en IA y la visión computacional para activos y operaciones.