¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, es parte de la etapa de pretratamiento en el desarrollo de un modelo de machine learning (ML). Requiere la identificación de datos sin procesar (es decir, imágenes, archivos de texto, videos) y luego la adición de una o más etiquetas a esos datos para especificar su contexto para los modelos, lo que permite que el modelo de machine learning realice predicciones precisas.

El etiquetado de datos respalda diferentes casos de uso de machine learning y deep learning, incluida la visión artificial y el procesamiento del lenguaje natural (PLN).

Productos destacados

IBM Watson Natural Language Understanding

IBM Cloud Object Storage

¿Cómo funciona el etiquetado de datos?

Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Las etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y esto, a su vez, permite seleccionar predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que se deben extraer para entrenar el modelo, con los que, posteriormente, el modelo aprende a hacer las mejores predicciones.

Además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la intervención humana ("human-in-the-loop" o HITL en inglés). El modelo HITL aprovecha el criterio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de machine learning. Ayudan a guiar el proceso de etiquetado de datos al suministrar los conjuntos de datos de modelos que son más apropiados para un proyecto determinado.

Datos etiquetados vs. datos no etiquetados

Las computadoras usan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?

Los datos etiquetados se utilizan en aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en aprendizaje no supervisado.
Los datos etiquetados son más difíciles de adquirir y almacenar (es decir, requieren mucho tiempo y son costosos), mientras que los datos no etiquetados son más fáciles de adquirir y almacenar.
Los datos etiquetados se pueden usar para determinar insights accionables (por ejemplo, tareas de pronóstico), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisado pueden ayudar a descubrir nuevos grupos de datos, lo que permite la creación de nuevas categorizaciones al momento de etiquetar.

Las computadoras también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar datos manualmente al mismo tiempo que proporciona un gran conjunto de datos anotados.

Enfoques del etiquetado de datos

El etiquetado de datos es un paso fundamental en el desarrollo de un modelo de machine learning de alto rendimiento. Aunque el etiquetado parece simple, no siempre es fácil de implementar. Por consiguiente, las empresas deben considerar múltiples factores y métodos para determinar el mejor enfoque de etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se recomienda realizar una evaluación detallada de la complejidad de la tarea, así como del tamaño, alcance y duración del proyecto.

A continuación, se muestran algunos procedimientos para etiquetar sus datos:

Etiquetado interno: recurrir a expertos internos en ciencia de datos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
Etiquetado sintético: este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y ahorra tiempo. Sin embargo, el etiquetado sintético requiere una gran potencia informática, lo que aumenta los costos.
Etiquetado programático: este proceso de etiquetado de datos automatizado utiliza scripts para ahorrar tiempo y reducir la necesidad de anotaciones humanas. Sin embargo, la posibilidad de problemas técnicos requiere que HITL siga siendo parte del proceso de aseguramiento de la calidad (QA).
Externalización: puede ser una opción óptima para proyectos temporales importantes, pero desarrollar y gestionar un flujo de trabajo con profesionales autónomos también puede llevar mucho tiempo. Si bien las plataformas de trabajo independiente brindan información completa sobre los candidatos para facilitar el proceso de selección, la contratación de equipos de etiquetado de datos gestionados proporciona personal preseleccionado y herramientas de etiquetado de datos predefinidas.
Crowdsourcing: este enfoque es más rápido y rentable debido a su capacidad de externalizar microtareas y a la distribución basada en la web. Sin embargo, la calidad de los trabajadores, el aseguramiento de la calidad y la gestión de proyectos varían según las plataformas de crowdsourcing. Uno de los ejemplos más famosos de etiquetado de datos mediante crowdsourcing, o externalización abierta de tareas, es Recaptcha. Este proyecto fue doble en el sentido que controlaba los bots y al mismo tiempo mejoraba la anotación de datos de las imágenes. Por ejemplo, un mensaje de Recaptcha pedía al usuario que identificara todas las fotos en las que hubiera un automóvil para demostrar que era un ser humano, y luego este programa podía verificarse a sí mismo en función de los resultados de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para una serie de imágenes.

Beneficios y desafíos del etiquetado de datos

La compensación general del etiquetado de datos es que, si bien puede acelerar el crecimiento de una empresa, tiende a tener un costo. Los datos más precisos generalmente mejoran las predicciones del modelo, por lo que, a pesar de su alto costo, el valor que proporcionan usualmente justifica la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis exploratorio de datos, así como las aplicaciones de machine learning e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en las plataformas de los motores de búsqueda y mejores recomendaciones de productos en las plataformas de comercio electrónico. A continuación, se describen otros beneficios y desafíos principales:

Beneficios

El etiquetado de datos proporciona a los usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. Más específicamente, puede esperar:

Predicciones más precisas: el etiquetado de datos preciso garantiza un mejor aseguramiento de la calidad en los algoritmos de machine learning, lo que permite que el modelo se entrene y produzca el resultado esperado. De lo contrario, como dice el viejo refrán, "si entra basura, sale basura". Los datos debidamente etiquetados proporcionan los "datos reales" (es decir, cómo las etiquetas reflejan escenarios del "mundo real") para probar e iterar modelos posteriores.
Mejor usabilidad de datos: el etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como variable binaria para que sea más consumible para un modelo. Agregar datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Ya sea que esté utilizando datos para crear modelos de visión artificial (es decir, colocando cuadros delimitadores alrededor de objetos) o modelos de PLN (es decir, clasificando texto para el sentimiento en redes sociales), la utilización de datos de alta calidad es de máxima prioridad.

Retos

El etiquetado de datos no está exento de desafíos. En particular, algunos de los desafíos más comunes son:

Costoso y prolongado: si bien el etiquetado de datos es fundamental para los modelos de machine learning, puede resultar costoso en recursos y tiempo. Si una empresa adopta un enfoque más automatizado, aun así los equipos de ingeniería necesitarán configurar líneas de trabajo de datos antes del tratamiento de datos, y el etiquetado manual casi siempre será costoso y prolongado.
Propenso a errores humanos: estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de codificación, errores de entrada manual) que pueden disminuir la calidad de los datos. Esto, a su vez, puede generar un tratamiento y modelado de datos inexactos. Los controles de aseguramiento de la calidad son esenciales para mantener la calidad de los datos.

Mejores prácticas del etiquetado de datos

Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y la eficiencia del etiquetado de datos:

Interfaces de tareas intuitivas y optimizadas: minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
Consenso: mide la tasa de concordancia entre varios etiquetadores (humanos o mecánicos). La puntuación de consenso se calcula dividiendo la suma de las etiquetas concordantes por el número total de etiquetas por activo.
Auditoría de etiquetas: verifica la precisión de las etiquetas y las actualiza según sea necesario.
Transferencia de aprendizaje: toma uno o más modelos previamente entrenados de un conjunto de datos y los aplica a otro. Esto puede incluir el aprendizaje multitarea, en el que se aprenden varias tareas en conjunto.
Aprendizaje activo: una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más apropiados. Los enfoques de aprendizaje activo incluyen:
- Síntesis de consultas de membresía: genera una instancia sintética y solicita una etiqueta para ella.
- Muestreo basado en grupos: clasifica todas las instancias sin etiquetar de acuerdo con la medición de la capacidad informativa y selecciona las mejores consultas que se pueden anotar.
- Muestreo selectivo basado en flujo: selecciona las instancias sin etiquetar una por una y las etiqueta o ignora según su capacidad informativa o incertidumbre.

Casos de uso del etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, calidad y usabilidad en múltiples contextos en todas las industrias, sus casos de uso más destacados incluyen:

Visión artificial: un campo de la IA que utiliza datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de objetos. De hecho, IBM ofrece una plataforma de visión artificial, Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de deep learning que se pueden implementar en la nube, en dispositivos edge y en centros de datos locales. La visión artificial se utiliza en múltiples industrias, desde el sector energético y los servicios públicos hasta la manufactura y la industria automotriz. Para 2022, se espera que este campo emergente alcance un valor de mercado de USD 48,600 millones.
Procesamiento del lenguaje natural (PLN): una rama de la inteligencia artificial que combina la lingüística computacional con modelos estadísticos, de machine learning y de deep learning para identificar y etiquetar secciones importantes de texto que generan datos de entrenamiento para el análisis de opiniones, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El PLN se utiliza cada vez más en soluciones empresariales como detección de spam, traducción automática, reconocimiento de voz, resumen de texto, asistentes virtuales y chatbots, y sistemas GPS operados por voz. Esto ha convertido al PLN en un componente fundamental en la evolución de los procesos de negocios de misión crítica.

Soluciones relacionadas

Comprensión del lenguaje natural

Utilice el servicio de procesamiento del lenguaje natural (PLN) para la analítica de texto avanzada.

Explore IBM Watson Natural Language Understanding

Almacenamiento de objetos en la nube

Habilite cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con un almacenamiento de objetos en las instalaciones líder en la industria.

Explore IBM Cloud Object Storage

Inspección visual

Descubra, prevea y prevenga problemas con la supervisión remota avanzada basada en IA y la visión artificial para activos y operaciones

Explore IBM Maximo Application Suite Visual Inspection

Dé el siguiente paso

IBM ofrece más recursos para ayudar a superar los desafíos del etiquetado de datos y maximizar su experiencia general de etiquetado de datos. No importa el tamaño o el cronograma de su proyecto, IBM Cloud e IBM Watson pueden mejorar sus procesos de entrenamiento de datos, expandir sus esfuerzos de clasificación de datos y simplificar modelos de pronóstico complejos.

Explore Watson Natural Language Understanding