¿Qué es el etiquetado de datos?

El etiquetado de datos, o anotación de datos, es parte de la etapa previa al procesamiento al desarrollar un modelo de machine learning (ML).

El etiquetado de datos implica identificar datos sin procesar, como imágenes, archivos de texto o videos, y asignar una o más etiquetas para especificar su contexto para los modelos de machine learning. Estas etiquetas ayudan a los modelos a interpretar los datos correctamente, lo que les permite hacer predicciones precisas.

El etiquetado de datos respalda diferentes casos de uso de machine learning y aprendizaje profundo, incluida la visión por computadora y el procesamiento del lenguaje natural (NLP).

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¿Cómo funciona el etiquetado de datos?

Las compañías integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y este proceso, a su vez, permite la selección de predictores de datos óptimos para los modelos de machine learning (ML). Las etiquetas identifican los vectores de datos apropiados que se extraerán para el entrenamiento del modelo, donde el modelo aprende a hacer las mejores predicciones.

Junto con la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación "human-in-the-loop (HITL)". HITL aprovecha el juicio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de machine learning. Ayudan a guiar el proceso de etiquetado de datos al alimentar los conjuntos de datos de modelos que son más aplicables a un proyecto.

Datos etiquetados frente a datos no etiquetados

Las computadoras utilizan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?

Los datos etiquetados se emplean en el aprendizaje supervisado, mientras que los datos no etiquetados se emplean en el aprendizaje no supervisado.
Los datos etiquetados son más difíciles de adquirir y almacenar (eso consume mucho tiempo y son costosos), mientras que los datos no etiquetados son más fáciles de adquirir y almacenar.
Los datos etiquetados se pueden utilizar para determinar insights aplicables en la práctica (por ejemplo, tareas de forecasting), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisados pueden ayudar a descubrir nuevos grupos de datos, lo que permite nuevas categorizaciones a la hora de etiquetar.

Las computadoras también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar manualmente los datos, al tiempo que proporciona un gran conjunto de datos comentados.

AI Academy

Conviértase en un experto en IA

Obtenga el conocimiento para priorizar las inversiones en IA que impulsan el crecimiento del negocio. Comience hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Ver la serie

Enfoques de etiquetado de datos

El etiquetado de datos es un paso crítico en el desarrollo de un modelo de machine learning de alto rendimiento. Aunque el etiquetado parece simple, no es necesariamente fácil de implementar. Como resultado, las compañías deben considerar múltiples factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus beneficios y desventajas, se recomienda realizar una evaluación detallada de la complejidad de la tarea, así como del tamaño, el alcance y la duración del proyecto.

A continuación se muestran algunas rutas para etiquetar sus datos:

Etiquetado interno: el uso de expertos internos en ciencia de datos simplifica el seguimiento, proporciona una mayor precisión y aumenta la calidad. Sin embargo, este enfoque suele requerir más tiempo y favorece a las grandes compañías con grandes recursos.
Etiquetado sintético: este enfoque genera nuevos datos de proyectos a partir de conjuntos de datos preexistentes, lo que mejora la calidad de los datos y la eficiencia del tiempo. Sin embargo, el etiquetado sintético requiere una gran potencia informática, lo que puede aumentar los precios.
Etiquetado programático: este proceso automatizado de etiquetado de datos emplea textos para reducir el consumo de tiempo y la necesidad de anotaciones humanas. Sin embargo, la posibilidad de problemas técnicos requiere que HITL siga siendo parte del proceso de garantía de calidad (QA).
Subcontratación: este enfoque puede ser una opción óptima para proyectos temporales de alto nivel, pero desarrollar y gestionar un flujo de trabajo orientado a autónomos también puede llevar mucho tiempo. Aunque las plataformas de trabajo independiente proporcionan información completa sobre los candidatos para facilitar el proceso de investigación, la contratación de equipos gestionados de etiquetado de datos proporciona personal previamente examinado y herramientas de etiquetado de datos predefinidas.
Participación colectiva: este enfoque es más rápido y rentable debido a su capacidad de microtareas y distribución basada en el sitio web. Sin embargo, la calidad de los trabajadores, el control de calidad y la gestión de proyectos varían según las plataformas de participación colectiva. Uno de los ejemplos más famosos de etiquetado de datos de colaboración colectiva es reCAPTCHA. Este proyecto tenía dos aspectos, ya que controlaba los bots y, al mismo tiempo, mejoraba la anotación de datos de las imágenes. Por ejemplo, una instrucción reCAPTCHA pediría a un usuario que identificara todas las fotos que contienen un automóvil para demostrar que eran humanos. Luego, el programa puede verificar su precisión comparando los resultados con los de otros usuarios. La entrada de estos usuarios proporcionó una base de datos de etiquetas para un conjunto de imágenes.

Beneficios y desafíos del etiquetado de datos

La contrapartida general del etiquetado de datos es que, si bien puede acelerar el proceso de escalado de una empresa, a menudo tiene un costo significativo. Los datos más precisos conducen a mejores predicciones del modelo, lo que hace que el etiquetado de datos sea una inversión valiosa pero costosa. A pesar de su alto costo, las empresas consideran que vale la pena debido a la mayor precisión que proporciona.

Debido a que la anotación de datos agrega más contexto a los conjuntos de datos, mejora el rendimiento de las aplicaciones de análisis exploratorio de datos, machine learning (ML) e inteligencia artificial (IA). Por ejemplo, los datos etiquetados contribuyen a resultados de búsqueda más relevantes en las plataformas de motores de búsqueda y a mejores recomendaciones de productos en el comercio electrónico. Exploremos otros beneficios clave y desafíos con más detalle.

Beneficios

El etiquetado de datos proporciona a los usuarios, equipos y empresas mayor contexto, calidad y usabilidad. Más específicamente, puede esperar:

Predicciones más precisas: el etiquetado preciso de los datos garantiza una mejor calidad de los algoritmos de machine learning, lo que permite que el modelo se entrene y produzca los resultados esperados. De lo contrario, como dice el viejo refrán, “si entra basura, sale basura”. Los datos etiquetados correctamente proporcionan la "verdad fundamental" (es decir, cómo las etiquetas reflejan escenarios del "mundo real") para probar e iterar modelos posteriores.
Mejor usabilidad de los datos: el etiquetado de datos también puede mejorar la usabilidad de las variables de datos dentro de un modelo. Por ejemplo, puede reclasificar una variable categórica como variable binaria para que un modelo la pueda consumir más. Agregar datos de esta manera puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Ya sea que esté utilizando datos para crear modelos de visión artificial (es decir, poner cuadros delimitadores alrededor de objetos) o modelos de PLN (es decir, clasificar texto para el sentimiento social), garantizar datos de alta calidad es una prioridad.

Desafíos

El etiquetado de datos conlleva su propio conjunto de desafíos. En particular, algunos de los desafíos más comunes son:

Caros y requieren mucho tiempo: si bien el etiquetado de datos es fundamental para los modelos de machine learning, puede ser costoso tanto desde el punto de vista de los recursos como del tiempo. Si una empresa adopta un enfoque más automatizado, los equipos de ingeniería aún necesitan configurar pipelines de datos antes de que el procesamiento de datos y el etiquetado manual generalmente sean costosos y requieran mucho tiempo.
Propenso al error humano: estos enfoques de etiquetado también están sujetos a errores humanos (por ejemplo, errores de programación y de entrada manual), lo que puede disminuir la calidad de los datos. Este proceso, a su vez, conduce a un procesamiento de datos inexacto y modelado. Los controles de calidad son esenciales para mantener la calidad de los datos.

Mejores prácticas de etiquetado de datos

Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y la eficiencia del etiquetado de datos:

Las interfaces de tareas intuitivas y optimizadas minimizan la carga cognitiva y el cambio de contexto para los etiquetadores humanos.
Consenso: mide la tasa de coincidencia entre múltiples etiquetadores (humanos o máquinas). La puntuación de consenso se calcula dividiendo la suma de las etiquetas que coinciden entre el número total de etiquetas por activo.
Auditoría de etiquetas: verifica la exactitud de las etiquetas y las actualiza según sea necesario.
Aprendizaje por transferencia: toma uno o más modelos previamente entrenados de un conjunto de datos y los aplica a otro. Este proceso puede incluir el aprendizaje multitarea, en el que se aprenden varias tareas en conjunto.
Aprendizaje activo: una categoría de algoritmos de ML y un subconjunto de aprendizaje semisupervisado que ayuda a los humanos a identificar los conjuntos de datos más apropiados. Los enfoques de aprendizaje activo incluyen:
- Síntesis de consultas de membresía: genera una instancia sintética y solicita una etiqueta para ella.
- Ejemplificación basada en grupos: clasifica todas las instancias sin etiquetar de acuerdo con la medición de la informatividad y selecciona las mejores consultas para anotar.
- Ejemplificación selectiva basada en flujos: selecciona instancias sin etiquetar una por una y las etiqueta o ignora según su informatividad o incertidumbre.

Casos de uso de etiquetado de datos

Si bien el perfilado de datos mejora la precisión, la calidad y la usabilidad en múltiples contextos en todas las industrias, entre sus casos de uso más destacados, podemos mencionar:

Visión artificial: un campo de la IA que emplea datos de entrenamiento para crear un modelo de visión artificial que permite la segmentación de imágenes y la automatización de categorías, identifica puntos clave en una imagen y detecta la ubicación de los objetos. IBM ofrece una plataforma de visión artificial llamada Maximo Visual Inspection, que permite a los expertos en la materia (SME) etiquetar y entrenar modelos de visión de aprendizaje profundo. Estos modelos se pueden desplegar en la nube, en dispositivos edge y en centros de datos locales. La visión artificial se emplea en múltiples industrias, desde la energía y las empresas de servicios públicos hasta la manufactura y la industria automotriz. Para 2022, se espera que este campo emergente alcance un valor de mercado de 48.6 mil millones de dólares.
Procesamiento de lenguaje natural (PLN): una rama de la IA combina la lingüística computacional con modelos estadísticos, de machine learning, de aprendizaje profundo y machine learning para identificar y etiquetar secciones importantes de texto. Estas secciones etiquetadas generan datos de entrenamiento para el análisis de sentimientos, el reconocimiento de nombres de entidades y el reconocimiento óptico de caracteres. El PLN se emplea cada vez más en soluciones empresariales como la detección de spam, la traducción automática, el reconocimiento de voz, el resumen de textos, los asistentes virtuales y los chatbots, y los sistemas GPS operados por voz. Este avance ha convertido al PLN en un componente crítico en la evolución de los procesos de negocio de misión crítica.

Ciencia de datos y MLOps para líderes de datos

Manténgase alineado con otros líderes en los 3 objetivos clave de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

¿Qué es el etiquetado de datos?