El etiquetado de datos, o anotación de datos, es parte de la etapa de pretratamiento en el desarrollo de un modelo de machine learning (ML). Requiere la identificación de datos sin procesar (es decir, imágenes, archivos de texto, videos) y luego la adición de una o más etiquetas a esos datos para especificar su contexto para los modelos, lo que permite que el modelo de machine learning realice predicciones precisas.
El etiquetado de datos respalda diferentes casos de uso de machine learning y deep learning, incluida la visión artificial y el procesamiento del lenguaje natural (PLN).
IBM Watson Natural Language Understanding
IBM Cloud Object Storage
Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Las etiquetas permiten a los analistas aislar variables dentro de conjuntos de datos y esto, a su vez, permite seleccionar predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que se deben extraer para entrenar el modelo, con los que, posteriormente, el modelo aprende a hacer las mejores predicciones.
Además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la intervención humana ("human-in-the-loop" o HITL en inglés). El modelo HITL aprovecha el criterio de los "etiquetadores de datos" humanos para crear, entrenar, ajustar y probar modelos de machine learning. Ayudan a guiar el proceso de etiquetado de datos al suministrar los conjuntos de datos de modelos que son más apropiados para un proyecto determinado.
Las computadoras usan datos etiquetados y no etiquetados para entrenar modelos de ML, pero ¿cuál es la diferencia?
Las computadoras también pueden usar datos combinados para el aprendizaje semisupervisado, lo que reduce la necesidad de etiquetar datos manualmente al mismo tiempo que proporciona un gran conjunto de datos anotados.
El etiquetado de datos es un paso fundamental en el desarrollo de un modelo de machine learning de alto rendimiento. Aunque el etiquetado parece simple, no siempre es fácil de implementar. Por consiguiente, las empresas deben considerar múltiples factores y métodos para determinar el mejor enfoque de etiquetado. Dado que cada método de etiquetado de datos tiene sus pros y sus contras, se recomienda realizar una evaluación detallada de la complejidad de la tarea, así como del tamaño, alcance y duración del proyecto.
A continuación, se muestran algunos procedimientos para etiquetar sus datos:
La compensación general del etiquetado de datos es que, si bien puede acelerar el crecimiento de una empresa, tiende a tener un costo. Los datos más precisos generalmente mejoran las predicciones del modelo, por lo que, a pesar de su alto costo, el valor que proporcionan usualmente justifica la inversión. Dado que la anotación de datos proporciona más contexto a los conjuntos de datos, mejora el rendimiento del análisis exploratorio de datos, así como las aplicaciones de machine learning e inteligencia artificial (IA). Por ejemplo, el etiquetado de datos produce resultados de búsqueda más relevantes en las plataformas de los motores de búsqueda y mejores recomendaciones de productos en las plataformas de comercio electrónico. A continuación, se describen otros beneficios y desafíos principales:
El etiquetado de datos proporciona a los usuarios, equipos y empresas un mayor contexto, calidad y usabilidad. Más específicamente, puede esperar:
El etiquetado de datos no está exento de desafíos. En particular, algunos de los desafíos más comunes son:
Independientemente del enfoque, las siguientes mejores prácticas optimizan la precisión y la eficiencia del etiquetado de datos:
Aunque el etiquetado de datos puede mejorar la precisión, calidad y usabilidad en múltiples contextos en todas las industrias, sus casos de uso más destacados incluyen:
Utilice el servicio de procesamiento del lenguaje natural (PLN) para la analítica de texto avanzada.
Habilite cargas de trabajo de IA y consolide el almacenamiento de big data primario y secundario con un almacenamiento de objetos en las instalaciones líder en la industria.
Descubra, prevea y prevenga problemas con la supervisión remota avanzada basada en IA y la visión artificial para activos y operaciones