En el campo de la ciencia de datos, los datos de la verdad fundamental representan el patrón oro de los datos precisos. Permite a los científicos de datos evaluar el rendimiento del modelo comparando los resultados con la "respuesta correcta" (datos basados en observaciones del mundo real). Esto valida que los modelos machine learning (ML) producen resultados precisos que reflejan la realidad.
Los datos reales son especialmente importantes para el aprendizaje supervisado, una subcategoría de ML que utiliza conjuntos de datos etiquetados para entrenar algoritmos para clasificar datos (clasificadores) o predecir resultados con precisión.
El etiquetado o anotación de datos es imprescindible para la recopilación de datos de verdad fundamental. Sin etiquetas o anotaciones precisas, los datos no pueden considerarse un punto de referencia para la verdad del mundo real.
Los datos de verdad fundamental son la base del machine learning supervisado, que se basa en conjunto de datos de alta calidad y etiquetados. Los modelos de ML supervisado se utilizan para crear y mejorar muchas de las aplicaciones de IA actuales. Por ejemplo, los modelos de ML supervisados están detrás del reconocimiento de imágenes y objetos, el análisis predictivo, el análisis de sentimientos del cliente y la detección de spam.
Los datos sobre el terreno proporcionan la información verificada y etiquetada con precisión necesaria para entrenar modelos de ML supervisados, validar su rendimiento y probar su capacidad de generalización (o hacer predicciones precisas basadas en nuevos datos). Al actuar como la "respuesta correcta" en comparación con las predicciones de los modelos, la verdad fundamental ayuda a garantizar que los sistemas de IA aprendan los patrones correctos y funcionen de forma fiable en escenarios del mundo real.
Por ejemplo, piense en la imagen de un gato. El conjunto de datos de entrenamiento para esta imagen puede incluir etiquetas para el cuerpo, las orejas, los ojos y los bigotes del gato, clasificaciones hasta el nivel de píxel. Estas anotaciones enseñan a los algoritmos de machine learning a identificar características similares dentro de nuevos datos de imagen.
La precisión de estas etiquetas de conjuntos de entrenamiento es crítico. Si las anotaciones son incorrectas o inconsistentes (por ejemplo, etiquetar las patas de los perros en lugar de las de los gatos), el modelo no aprende los patrones correctos. Esto puede llevar a predicciones falsas.
Un gato con patas de perro puede parecer inocuo. Sin embargo, los riesgos de predicciones erróneas son mayores en ámbitos como la sanidad o la mitigación del cambio climático, donde la precisión en tiempo real es primordial.
La verdad fundamental es esencial para el ciclo de vida del machine learning supervisado (ML), incluidas las fases de entrenamiento, validación y prueba del modelo.
La verdad fundamental sirve de base para varias tareas de aprendizaje supervisado, incluidas la clasificación, la regresión y la segmentación. Si un modelo está aprendiendo a categorizar datos, predecir resultados numéricos o identificar objetos en imágenes, la verdad fundamental proporciona el punto de referencia para realizar predicciones precisas. Estas tareas tienen una amplia gama de casos de uso en el mundo real en los que la precisión de los datos de la verdad fundamental es crucial para el éxito.
En las tareas de clasificación, los datos de la verdad fundamental proporcionan las etiquetas correctas para cada entrada, lo que ayuda al modelo a categorizar los datos en clases predefinidas. Por ejemplo, en la clasificación binaria, un modelo distingue entre dos categorías (como verdadero o falso). La clasificación multiclase es un poco más compleja: el modelo asigna datos a una de varias clases que debe elegir.
Pensemos en el sector sanitario. Las plataformas de IA suelen utilizar la clasificación multiclase para analizar imágenes médicas, como tomografías computarizadas y resonancias magnéticas, con el fin de ayudar en el diagnóstico.
A grandes rasgos, una aplicación de IA puede ver una radiografía de un brazo y clasificarlo en una de estas cuatro clases: roto, fracturado, con esguince o sano. Si los datos de la verdad fundamental son defectuosos, pueden dar lugar a predicciones incorrectas, lo que podría dar lugar a diagnósticos erróneos o retrasos en los tratamientos.
Las tareas de regresión se centran en predecir valores continuos. Los datos de la verdad fundamental representan los resultados numéricos reales que el modelo pretende predecir. Por ejemplo, un modelo de regresión lineal puede predecir los precios de la vivienda en función de factores como la superficie, el número de habitaciones y la ubicación.
En la mitigación del cambio climático, los modelos de IA utilizan imágenes de satélite y datos de teledetección para controlar los cambios medioambientales, como los cambios de temperatura o la deforestación.
En este caso, los datos de la verdad fundamental incluyen registros verificados de datos meteorológicos históricos o mediciones de temperatura conocidas. Estos datos de la verdad fundamental ayudan a garantizar que las predicciones de los modelos de IA sean precisas y puedan informar decisiones críticas sobre políticas y acción climática.
Las tareas de segmentación implican dividir una imagen o conjunto de datos en distintas regiones u objetos. Los datos de la verdad fundamental en la segmentación a menudo se definen a nivel de píxel para identificar límites o regiones dentro de una imagen.
Por ejemplo, en el desarrollo de vehículos autónomos, las etiquetas de verdad fundamental se utilizan para entrenar a las modelos a detectar y diferenciar entre peatones, vehículos y señales de tráfico en entornos del mundo real y actuar en consecuencia. Si las etiquetas de la verdad fundamental son incorrectas o inconsistentes, el modelo podría identificar mal los objetos y representar graves riesgos para la seguridad en la carretera.
Existen varios desafíos para establecer datos de alta calidad sobre el terreno, entre ellos:
Existen varias estrategias y metodologías que las organizaciones pueden utilizar para establecer y optimizar datos de verdad fundamental de alta calidad, entre ellas:
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.