En el campo de la ciencia de datos, los datos de verdad fundamental representan el estándar de referencia de los datos precisos. Permite a los científicos de datos evaluar el rendimiento del modelo comparando los resultados con la "respuesta correcta" (datos basados en observaciones del mundo real). Esto valida que los modelos de machine learning (ML) producen resultados precisos que reflejan la realidad.
Los datos de verdad fundamental son especialmente importantes para el aprendizaje supervisado, una subcategoría del ML que emplea conjuntos de datos etiquetados para entrenar algoritmos para clasificar datos (clasificadores) o predecir resultados con precisión.
El etiquetado o la anotación de datos es fundamental para la recopilación de datos de verdad fundamental. Sin etiquetas o anotaciones precisas, los datos no pueden considerarse un punto de referencia para la verdad del mundo real.
Los datos de verdad fundamental son la base del machine learning supervisado, que depende de conjuntos de datos de alta calidad. Los modelos de ML supervisado se utilizan para construir y avanzar muchas de las aplicaciones de IA actuales. Por ejemplo, los modelos de ML supervisado están detrás del reconocimiento de imágenes y objetos, los análisis predictivos, el análisis del sentimiento del cliente y la detección de spam.
Los datos de verdad fundamental proporcionan la información etiquetada y verificada con la precisión necesaria para entrenar modelos de ML supervisado, validar su rendimiento y probar su capacidad para generalizar (o hacer predicciones precisas basadas en nuevos datos). Al actuar como la "respuesta correcta" en comparación con las predicciones del modelo, la verdad fundamental ayuda a garantizar que los sistemas de IA aprendan los patrones correctos y tengan un rendimiento confiable en escenarios del mundo real.
Por ejemplo, imagine la foto de un gato. El conjunto de datos de entrenamiento para esta imagen podría incluir etiquetas para el cuerpo, las orejas, los ojos y los bigotes del gato, clasificaciones hasta el nivel de pixel. Estas anotaciones enseñan a algoritmos de machine learning a identificar características similares en los nuevos datos de imagen.
La precisión de estas etiquetas de conjuntos de entrenamiento es crítica. Si las anotaciones son incorrectas o incongruentes (como etiquetar patas de perro en lugar de patas de gato), el modelo no aprende los patrones correctos. Esto puede llevar a predicciones falsas.
Un gato con patas de perro puede parecer inofensivo. Sin embargo, el riesgo de predicciones erróneas es mayor en ámbitos como la atención médica y la mitigación del cambio climático, donde la precisión en tiempo real es primordial.
La verdad fundamental es esencial para el ciclo de vida del machine learning (ML) supervisado, incluidas las fases de entrenamiento, validación y prueba del modelo.
La verdad fundamental sirve como base para varias tareas de aprendizaje supervisadas, incluidas la clasificación, la regresión y la segmentación. Ya sea que un modelo esté aprendiendo a categorizar datos, predecir resultados numéricos o identificar objetos en imágenes, la verdad fundamental proporciona el punto de referencia para predicciones precisas. Estas tareas tienen casos de uso reales de amplio alcance donde la precisión de los datos de verdad fundamental es crucial para el éxito.
En las tareas de clasificación, los datos de verdad fundamental proporcionan las etiquetas correctas para cada entrada, lo que ayuda al modelo a categorizar los datos en clases predefinidas. Por ejemplo, en la clasificación binaria, un modelo distingue entre dos categorías (como verdadero o falso). La clasificación multiclase es un poco más compleja: el modelo asigna datos a una de varias clases que debe elegir.
Considere la industria de la atención médica. Las plataformas de IA suelen utilizar la clasificación multiclase para analizar imágenes médicas, como tomografías computarizadas y resonancias magnéticas, para ayudar en el diagnóstico.
En términos generales, una aplicación de IA puede observar una radiografía de un brazo y clasificarlo en una de cuatro clases: roto, fracturado, con esguince o sano. Si los datos de verdad fundamental son erróneos, pueden dar lugar a predicciones incorrectas, lo que llevaría a diagnósticos erróneos o retrasos en los tratamientos.
Las tareas de regresión se centran en predecir valores continuos. Los datos de verdad fundamental representan los resultados numéricos reales que el modelo busca predecir. Por ejemplo, un modelo de regresión lineal puede predecir los precios de viviendas en función de factores, como la superficie, el número de habitaciones y la ubicación.
En la mitigación del cambio climático, los modelos de IA usan imágenes de satellite y datos de teledetección para monitorear los cambios medioambientales, como las variaciones de temperatura o la deforestación.
En este caso, los datos de verdad fundamental incluyen registros verificados de datos meteorológicos históricos o mediciones de temperatura conocidas. Estos datos de verdad fundamental ayudan a garantizar que las predicciones del modelo de IA sean precisas y puedan fundamentar decisiones críticas sobre políticas y acción climática.
Las tareas de segmentación implican desglosar una imagen o conjunto de datos en distintas regiones u objetos. Los datos de verdad fundamental en la segmentación a menudo se definen a nivel de píxel para identificar límites o regiones dentro de una imagen.
Por ejemplo, en el desarrollo de vehículos autónomos, las etiquetas de verdad fundamental se utilizan para entrenar modelos para detectar y diferenciar entre peatones, vehículos y señales de tráfico en entornos del mundo real y actuar en consecuencia. Si las etiquetas de verdad fundamental son incorrectas o incoherentes, el modelo podría identificar erróneamente los objetos, lo que plantearía graves riesgos de seguridad en la carretera.
Existen varios desafíos para establecer datos de verdad fundamental de alta calidad, entre ellos:
Existen varias estrategias y metodologías que las organizaciones pueden utilizar para establecer y optimizar datos de verdad fundamental de alta calidad, que incluyen:
Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.