El etiquetado de datos, o anotación de datos, forma parte de la fase de preprocesamiento en el desarrollo de un modelo de machine learning (ML). Requiere identificar los datos sin procesar (es decir, imágenes, archivos de texto, vídeos) y luego añadirles una o más etiquetas para especificar su contexto para los modelos, lo que permite que el modelo de machine learning realice predicciones precisas.
El etiquetado de datos forma la base de diferentes casos de uso de machine learning y deep learning, incluida la visión artificial y el procesamiento del lenguaje natural (NLP).
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar los datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos, lo que a su vez permite la selección de predictores de datos óptimos para modelos de ML. Las etiquetas identifican los vectores de datos apropiados que se van a extraer para el entrenamiento de modelos, en el que el modelo aprende luego a realizar las mejores predicciones.
Además de asistencia por máquina, las tareas de etiquetado de datos requieren la participación “human-in-the-loop (HITL)”, que aporta intervención humana. HITL se vale del criterio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de ML. Estos etiquetadores guían el proceso de etiquetado de datos alimentando los conjuntos de datos de modelos que son más aplicables a un proyecto determinado.
Los sistemas utilizan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿en qué se diferencian?
Los sistemas también pueden utilizar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar manualmente los datos y proporciona un gran conjunto de datos anotados.
El etiquetado de datos es un paso fundamental en el desarrollo de un modelo de ML de alto rendimiento. Aunque el etiquetado parece sencillo, no siempre es fácil de implementar. En consecuencia, las empresas deben considerar varios factores y métodos para determinar el mejor enfoque para el etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se recomienda evaluar de forma detallada la complejidad de la tarea, así como el tamaño, el ámbito y la duración del proyecto.
Estas son algunas vías para etiquetar los datos:
En general, la contrapartida del etiquetado de datos es que, aunque puede reducir el tiempo necesario para escalar una empresa, tiende a tener ciertas consecuencias. Unos datos más precisos suelen implicar una mejora de las predicciones del modelo, de modo que, a pesar de su alto coste, el valor que proporciona hace que la inversión valga la pena. Dado que la anotación de datos proporciona más contexto para los conjuntos de datos, mejora el rendimiento del análisis de datos exploratorio, además de las aplicaciones de machine learning (ML) e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en las plataformas de búsqueda, y mejores recomendaciones de producto en las plataformas de comercio electrónico. Veamos con más detalle otras ventajas y desafíos clave:
El etiquetado de datos ofrece a usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. Más específicamente, esto es lo que se puede obtener:
El etiquetado de datos no está exento de desafíos. Estos son algunos de los más comunes, en particular:
Sea cual sea el enfoque, las prácticas recomendadas siguientes optimizan la exactitud y la eficiencia del etiquetado de datos:
Aunque el etiquetado de datos puede mejorar la precisión, la calidad y la usabilidad en varios contextos en todas las industrias, estos son algunos de sus casos de uso más destacados:
El servicio de procesamiento de lenguaje natural (NLP) para el análisis de texto avanzado
Habilite las cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con el almacenamiento de objetos en local líder del sector
Consulte, prevea y evite problemas con la supervisión remota avanzada basada en IA y la visión computacional para activos y operaciones