¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, forma parte de la etapa de preprocesamiento cuando se desarrolla un modelo de machine learning (ML).

El etiquetado de datos implica identificar datos sin procesar, como imágenes, archivos de texto o vídeos, y asignar una o más etiquetas para especificar su contexto para los modelos de machine learning. Estas etiquetas ayudan a los modelos a interpretar los datos correctamente, lo que les permite hacer predicciones precisas.

El etiquetado de datos respalda diferentes casos de uso de aprendizaje automático y aprendizaje profundo, incluida la visión artificial y el procesamiento del lenguaje natural (PLN).

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¿Cómo funciona el etiquetado de datos?

Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables dentro de los conjuntos de datos y este proceso, a su vez, permite la selección de predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que deben extraerse para el entrenamiento del modelo, donde luego el modelo aprende a hacer las mejores predicciones.

Además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación de “human-in-the-loop” (HITL). HITL aprovecha el criterio de los “etiquetadores de datos” humanos para crear, entrenar, ajustar y probar modelos de aprendizaje automático. Ayudan a guiar el proceso de etiquetado de datos al alimentar los conjuntos de datos de modelos que son más aplicables a un proyecto.

Datos etiquetados frente a datos no etiquetados

Los ordenadores utilizan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?

Los datos etiquetados se utilizan en el aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en el aprendizaje no supervisado.
Los datos etiquetados son más difíciles de adquirir y almacenar (lo que lleva mucho tiempo y es caro), mientras que los datos no etiquetados son más fáciles de adquirir y almacenar.
Los datos etiquetados se pueden utilizar para determinar conocimientos que se pueden ejecutar (por ejemplo, tareas de previsión), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisado pueden ayudar a descubrir nuevos clústeres de datos, lo que permite nuevas categorizaciones a la hora de etiquetar.

Los ordenadores también pueden utilizar datos combinados para el aprendizaje semisupervisado, que reduce la necesidad de datos etiquetados manualmente al tiempo que proporciona un gran conjunto de datos anotados.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Vea la serie

Enfoques de etiquetado de datos

El etiquetado de datos es un paso crítico en el desarrollo de un modelo de ML de alto rendimiento. Aunque el etiquetado parece sencillo, no es necesariamente fácil de implementar. Como resultado, las empresas deben considerar múltiples factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se aconseja una evaluación detallada de la complejidad de la tarea, así como del tamaño, alcance y duración del proyecto.

Estas son algunas vías para etiquetar los datos:

Etiquetado interno: el uso de expertos internos en ciencia de datos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes empresas con amplios recursos.
Etiquetado sintético: este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia del tiempo. Sin embargo, el etiquetado sintético exige una gran potencia informática, lo que puede aumentar los precios.
Etiquetado programático: este proceso automatizado de etiquetado de datos utiliza scripts para reducir el consumo de tiempo y la necesidad de anotación humana. Sin embargo, la posibilidad de problemas técnicos requiere que HITL permanezca como parte del proceso de aseguramiento de la calidad (QA).
Externalización: este enfoque puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a los autónomos también puede llevar mucho tiempo. Aunque las plataformas de trabajo independiente brindan información completa sobre los candidatos para facilitar el proceso de selección, la contratación de equipos de etiquetado de datos administrados proporciona personal previamente examinado y herramientas de etiquetado de datos prediseñadas.
Colaboración abierta distribuida: este enfoque es más rápido y rentable debido a su capacidad de microtarea y distribución basada en la web. Sin embargo, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían según las plataformas de colaboración abierta distribuida. Uno de los ejemplos más famosos de etiquetado de datos de colaboración abierta distribuida es reCAPTCHA. Este proyecto tenía dos vertientes, ya que controlaba los bots y, al mismo tiempo, mejoraba la anotación de datos de las imágenes. Por ejemplo, una instrucción de reCAPTCHA pediría a un usuario que identificara todas las fotos que contenían un coche para demostrar que eran humanos. A continuación, el programa puede verificar su precisión comparando los resultados con los de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para una matriz de imágenes.

Beneficios y desafíos del etiquetado de datos

La desventaja general del etiquetado de datos es que, si bien puede acelerar el proceso de expansión de una empresa, a menudo conlleva un coste significativo. Los datos más precisos conducen a mejores predicciones de los modelos, lo que hace que el etiquetado de datos sea una inversión valiosa pero costosa. A pesar de su alto coste, las empresas consideran que merece la pena debido a la mayor precisión que proporciona.

Dado que la anotación de datos añade más contexto a los conjuntos de datos, mejora el rendimiento de las aplicaciones de análisis exploratorio de datos, machine learning (ML) e inteligencia artificial (IA). Por ejemplo, los datos etiquetados contribuyen a resultados de búsqueda más relevantes en las plataformas de motores de búsqueda y a mejores recomendaciones de productos en el comercio electrónico. Exploraremos otros beneficios clave y desafíos con más detalle.

Beneficios

El etiquetado de datos proporciona a los usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. En concreto:

Predicciones más precisas: el etiquetado preciso de los datos garantiza una mejor garantía de calidad dentro de los algoritmos de machine learning, lo que permite que el modelo se entrene y produzca el resultado esperado. De lo contrario, como dice el viejo refrán, “basura que entra, basura que sale”. Los datos etiquetados correctamente proporcionan la "verdad fundamental" (es decir, cómo las etiquetas reflejan escenarios del "mundo real") para probar e iterar modelos posteriores.
Mejor usabilidad de los datos: el etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como una variable binaria para hacerla más consumible para un modelo. La agregación de datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Tanto si utiliza datos para crear modelos de visión artificial (es decir, poner cuadros delimitadores alrededor de objetos) como modelos de PLN (es decir, clasificar texto según el sentimiento social), garantizar datos de alta calidad es una prioridad absoluta.

Desafíos

El etiquetado de datos conlleva sus propios retos. En particular, algunos de los desafíos más comunes son:

Costoso y lento: aunque el etiquetado de datos es crítico para los modelos de machine learning, puede ser costoso tanto desde el punto de vista de los recursos como del tiempo. Si una empresa adopta un enfoque más automatizado, los equipos de ingeniería aún necesitan configurar pipelines de datos antes del proceso de datos y el etiquetado manual generalmente es costoso y requiere mucho tiempo.
Propenso al error humano: estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de codificación, errores de entrada manual), lo que puede disminuir la calidad de los datos. Este proceso, a su vez, conduce a un procesamiento y modelado de datos inexacto. Los controles de aseguramiento de la calidad son esenciales para mantener la calidad de los datos.

Prácticas recomendadas para el etiquetado de datos

Independientemente del enfoque, las siguientes prácticas recomendadas optimizan la precisión y la eficiencia del etiquetado de datos:

Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
Consenso: mide la tasa de concordancia entre múltiples etiquetadoras (humanas o mecánicas). Una puntuación de consenso se calcula al dividir la suma de las etiquetas que concuerdan por el número total de etiquetas por activo.
Auditoría de etiquetas: verifica la exactitud de las etiquetas y las actualiza según sea necesario.
Transferencia de aprendizaje: toma uno o varios modelos previamente entrenados de un conjunto de datos y los aplica a otro. Este proceso puede incluir el aprendizaje multitarea, en el que se aprenden varias tareas en tándem.
Aprendizaje activo: una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más adecuados. Los enfoques de aprendizaje activo incluyen:
- Síntesis de consultas de pertenencia: genera una instancia sintética y solicita una etiqueta para ella.
- Muestreo basado en grupos: clasifica todas las instancias sin etiquetar según la medición de informatividad y selecciona las mejores consultas para anotar.
- Muestreo selectivo basado en flujos: selecciona las instancias sin etiquetar una por una y las etiqueta o las ignora en función de su carácter informativo o incertidumbre.

Casos de uso de etiquetado de datos

Aunque el etiquetado de datos puede mejorar la precisión, la calidad y la facilidad de uso en múltiples contextos de todos los sectores, sus casos de uso más destacados son:

Visión artificial: un campo de la IA que utiliza datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de los objetos. IBM ofrece una plataforma de visión artificial llamada Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de deep learning. Estos modelos se pueden implementar en la nube, en dispositivos edge y en centros de datos locales. La visión artificial se utiliza en múltiples sectores, desde la energía y los suministros hasta la fabricación y la automoción. Para 2022, se espera que este campo en alza alcance un valor de mercado de 48 600 millones de dólares.
Procesamiento del lenguaje natural (PLN): una rama de la IA combina la lingüística computacional con modelos estadísticos, de machine learning y de deep learning para identificar y etiquetar secciones importantes de texto. Estas secciones etiquetadas generan datos de entrenamiento para el análisis de sentimientos, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El PLN se utiliza cada vez más en soluciones empresariales como la detección de spam, la traducción automática, el reconocimiento de voz, el resumen de textos, los asistentes virtuales y los chatbots, y los sistemas GPS operados por voz. Este avance ha convertido al PLN en un componente crítico en la evolución de los procesos empresariales de misión crítica.

Ciencia de datos y MLOps para líderes de datos

Manténgase alineado con otros líderes en los 3 objetivos clave de MLOps y la IA fiable: la confianza en los datos, la confianza en los modelos y la confianza en los procesos.

¿Qué es el etiquetado de datos?