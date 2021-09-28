Las empresas integran software, procesos y anotadores de datos para limpiar, estructurar y etiquetar datos. Estos datos de entrenamiento se convierten en la base de los modelos de machine learning. Estas etiquetas permiten a los analistas aislar las variables dentro de los conjuntos de datos, y esto, a su vez, permite seleccionar los predictores de datos óptimos para los modelos de ML. Las etiquetas identifican los vectores de datos apropiados que deben extraerse para el entrenamiento del modelo, donde luego el modelo aprende a hacer las mejores predicciones.

Además de la asistencia de la máquina, las tareas de etiquetado de datos requieren la participación de “humanos en el circuito” (HITL). HITL aprovecha el criterio de los “etiquetadores de datos” humanos para crear, entrenar, ajustar y probar modelos de aprendizaje automático. Ayudan a guiar el proceso de etiquetado de los datos al alimentar los modelos con los conjuntos de datos más aplicables a un proyecto determinado.

Datos etiquetados frente a datos sin etiquetar



Los ordenadores utilizan datos etiquetados y no etiquetados para entrenar modelos ML, pero ¿cuál es la diferencia?

Los datos etiquetados se utilizan en el aprendizaje supervisado, mientras que los datos no etiquetados se utilizan en el aprendizaje no supervisado.

Los datos etiquetados son más difíciles de adquirir y almacenar (p. ej. requieren mucho tiempo y son costoso), mientras que los datos sin etiquetar son más fáciles de adquirir y almacenar.

Los datos etiquetados pueden utilizarse para determinar perspectivas procesables (p. ej. tareas de previsión), mientras que los datos no etiquetados tienen una utilidad más limitada. Los métodos de aprendizaje no supervisado pueden ayudar a descubrir nuevos grupos de datos, lo que permite nuevas categorizaciones a la hora de etiquetar.

Los ordenadores también pueden utilizar datos combinados para el aprendizaje semisupervisado, que reduce la necesidad de datos etiquetados manualmente al tiempo que proporciona un gran conjunto de datos anotados.