¿Qué es la verdad fundamental?

20 de diciembre de 2024

Autores

Alexandra Jonker

Editorial Content Lead

¿Qué es la verdad fundamental?

La verdad fundamental o los datos de verdad fundamental se refiere a datos verificados y verdaderos que se utilizan para entrenar, validar y probar modelos de inteligencia artificial (IA).
 

En el campo de la ciencia de datos, los datos de la verdad fundamental representan el patrón oro de los datos precisos. Permite a los científicos de datos evaluar el rendimiento del modelo comparando los resultados con la "respuesta correcta" (datos basados en observaciones del mundo real). Esto valida que los modelos machine learning (ML) producen resultados precisos que reflejan la realidad.

Los datos reales son especialmente importantes para el aprendizaje supervisado, una subcategoría de ML que utiliza conjuntos de datos etiquetados para entrenar algoritmos para clasificar datos (clasificadores) o predecir resultados con precisión.

El etiquetado o anotación de datos es imprescindible para la recopilación de datos de verdad fundamental. Sin etiquetas o anotaciones precisas, los datos no pueden considerarse un punto de referencia para la verdad del mundo real.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué son importantes los datos de la verdad fundamental?

Los datos de verdad fundamental son la base del machine learning supervisado, que se basa en conjunto de datos de alta calidad y etiquetados. Los modelos de ML supervisado se utilizan para crear y mejorar muchas de las aplicaciones de IA actuales. Por ejemplo, los modelos de ML supervisados están detrás del reconocimiento de imágenes y objetos, el análisis predictivo, el análisis de sentimientos del cliente y la detección de spam.

Los datos sobre el terreno proporcionan la información verificada y etiquetada con precisión necesaria para entrenar modelos de ML supervisados, validar su rendimiento y probar su capacidad de generalización (o hacer predicciones precisas basadas en nuevos datos). Al actuar como la "respuesta correcta" en comparación con las predicciones de los modelos, la verdad fundamental ayuda a garantizar que los sistemas de IA aprendan los patrones correctos y funcionen de forma fiable en escenarios del mundo real.

Por ejemplo, piense en la imagen de un gato. El conjunto de datos de entrenamiento para esta imagen puede incluir etiquetas para el cuerpo, las orejas, los ojos y los bigotes del gato, clasificaciones hasta el nivel de píxel. Estas anotaciones enseñan a los algoritmos de machine learning a identificar características similares dentro de nuevos datos de imagen.

La precisión de estas etiquetas de conjuntos de entrenamiento es crítico. Si las anotaciones son incorrectas o inconsistentes (por ejemplo, etiquetar las patas de los perros en lugar de las de los gatos), el modelo no aprende los patrones correctos. Esto puede llevar a predicciones falsas.

Un gato con patas de perro puede parecer inocuo. Sin embargo, los riesgos de predicciones erróneas son mayores en ámbitos como la sanidad o la mitigación del cambio climático, donde la precisión en tiempo real es primordial.  

Mixture of Experts | 25 de abril, episodio 52

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Verdad fundamental a lo largo del ciclo de vida del ML

La verdad fundamental es esencial para el ciclo de vida del machine learning supervisado (ML), incluidas las fases de entrenamiento, validación y prueba del modelo.

  • Entrenamiento: durante la fase de entrenamiento, los datos de la verdad fundamental proporcionan las respuestas correctas para que el modelo aprenda. La precisión del etiquetado de datos es crucial: si los datos de la verdad fundamental son incorrectos o inconsistentes, el modelo aprende patrones incorrectos y tiene dificultades para hacer predicciones precisas.

  • Validación: cuando el modelo está entrenado, se evalúa lo bien que ha aprendido a partir de los datos de la verdad sobre el terreno. Esto se hace mediante la validación, en la que las predicciones del modelo se comparan con una muestra diferente de los datos de la verdad fundamental. El modelo puede ajustarse y afinarse en esta fase.
  • Pruebas: una vez entrenado y validado el modelo, las pruebas con un nuevo conjunto de datos de la verdad fundamental ayudan a garantizar que funcione bien con datos nuevos e invisibles (generalización). Aquí es donde realmente se evalúa la eficacia del modelo en escenarios del mundo real. Métricas como la exactitud, la precisión y la recuperación evalúan el rendimiento del modelo y destacan las áreas de mejora.

Verdad fundamental en diferentes tareas de ML

La verdad fundamental sirve de base para varias tareas de aprendizaje supervisado, incluidas la clasificación, la regresión y la segmentación. Si un modelo está aprendiendo a categorizar datos, predecir resultados numéricos o identificar objetos en imágenes, la verdad fundamental proporciona el punto de referencia para realizar predicciones precisas. Estas tareas tienen una amplia gama de casos de uso en el mundo real en los que la precisión de los datos de la verdad fundamental es crucial para el éxito.

Clasificación

En las tareas de clasificación, los datos de la verdad fundamental proporcionan las etiquetas correctas para cada entrada, lo que ayuda al modelo a categorizar los datos en clases predefinidas. Por ejemplo, en la clasificación binaria, un modelo distingue entre dos categorías (como verdadero o falso). La clasificación multiclase es un poco más compleja: el modelo asigna datos a una de varias clases que debe elegir.  

Pensemos en el sector sanitario. Las plataformas de IA suelen utilizar la clasificación multiclase para analizar imágenes médicas, como tomografías computarizadas y resonancias magnéticas, con el fin de ayudar en el diagnóstico.

A grandes rasgos, una aplicación de IA puede ver una radiografía de un brazo y clasificarlo en una de estas cuatro clases: roto, fracturado, con esguince o sano. Si los datos de la verdad fundamental son defectuosos, pueden dar lugar a predicciones incorrectas, lo que podría dar lugar a diagnósticos erróneos o retrasos en los tratamientos.

Regresión

Las tareas de regresión se centran en predecir valores continuos. Los datos de la verdad fundamental representan los resultados numéricos reales que el modelo pretende predecir. Por ejemplo, un modelo de regresión lineal puede predecir los precios de la vivienda en función de factores como la superficie, el número de habitaciones y la ubicación.

En la mitigación del cambio climático, los modelos de IA utilizan imágenes de satélite y datos de teledetección para controlar los cambios medioambientales, como los cambios de temperatura o la deforestación.

En este caso, los datos de la verdad fundamental incluyen registros verificados de datos meteorológicos históricos o mediciones de temperatura conocidas. Estos datos de la verdad fundamental ayudan a garantizar que las predicciones de los modelos de IA sean precisas y puedan informar decisiones críticas sobre políticas y acción climática.

Segmentación

Las tareas de segmentación implican dividir una imagen o conjunto de datos en distintas regiones u objetos. Los datos de la verdad fundamental en la segmentación a menudo se definen a nivel de píxel para identificar límites o regiones dentro de una imagen.

Por ejemplo, en el desarrollo de vehículos autónomos, las etiquetas de verdad fundamental se utilizan para entrenar a las modelos a detectar y diferenciar entre peatones, vehículos y señales de tráfico en entornos del mundo real y actuar en consecuencia. Si las etiquetas de la verdad fundamental son incorrectas o inconsistentes, el modelo podría identificar mal los objetos y representar graves riesgos para la seguridad en la carretera.

Desafíos comunes para establecer la verdad fundamental

Existen varios desafíos para establecer datos de alta calidad sobre el terreno, entre ellos:

  • Etiquetado de datos incoherente: los científicos de datos a menudo encuentran variabilidad en los conjuntos de datos, lo que puede dar lugar a incoherencias que afectan al comportamiento del modelo. Incluso los pequeños errores de etiquetado en las atribuciones y citas pueden agravarse y dar lugar a errores de predicción del modelo.

  • Subjetividad y ambigüedad: muchas tareas de etiquetado de datos requieren juicio humano, que puede ser subjetivo. Por ejemplo, en tareas como el análisis de sentimiento, diferentes anotadores pueden interpretar los datos de manera diferente, lo que genera incoherencias en la verdad fundamental.

  • Complejidad de los datos: los conjuntos de datos grandes y diversos (comunes en campos como el procesamiento del lenguaje natural [PLN] o la inteligencia artificial generativa [IA gen]) pueden ser más difíciles de anotar con precisión. La complejidad de los datos, con múltiples etiquetas posibles y matices contextuales, puede hacer que sea más difícil establecer una verdad fundamental consistente.

  • Datos sesgados y parciales: los datos de la verdad fundamental pueden no ser siempre totalmente representativos de los escenarios del mundo real, especialmente si el conjunto de datos etiquetados está incompleto o desequilibrado. Esto puede dar lugar a modelos sesgados.

  • Escalabilidad y coste: etiquetar grandes conjuntos de datos, especialmente aquellos que requieren conocimientos expertos y observación directa (como las imágenes médicas), lleva mucho tiempo y es costoso. Escalar los esfuerzos de etiquetado de datos para satisfacer las demandas de los sistemas de IA modernos a menudo requiere automatización o crowdsourcing, pero estos enfoques aún pueden introducir errores o inconsistencias.

Estrategias para establecer datos de la verdad fundamental de alta calidad

Existen varias estrategias y metodologías que las organizaciones pueden utilizar para establecer y optimizar datos de verdad fundamental de alta calidad, entre ellas:

  • Definición del objetivo y de los requisitos de datos: definir claramente los objetivos del modelo ayuda a las empresas a determinar los tipos de datos y etiquetas necesarios para que el proceso de recopilación de datos se alinee con el uso previsto del modelo. Esta alineación es especialmente importante en áreas como la visión artificial en la que el ML y las redes neuronales enseñan a los sistemas a derivar información significativa de las entradas visuales.

  • Desarrollar una estrategia de etiquetado integral: las organizaciones pueden crear directrices estandarizadas para etiquetar los datos de la verdad fundamental a fin de garantizar la coherencia y la precisión en todos los conjuntos de datos. Un esquema de etiquetado bien definido podría guiar la forma de anotar varios formatos de datos y mantener las anotaciones uniformes durante el desarrollo del modelo.

  • Uso de la colaboración entre humanos y máquinas: las herramientas de machine learning, como Amazon SageMaker Ground Truth o IBM watsonx Natural Language Understanding, pueden amplificar la experiencia de los anotadores humanos. Por ejemplo, Amazon SageMaker Ground Truth proporciona un servicio de etiquetado de datos que facilita la creación de conjuntos de datos de entrenamiento de alta calidad mediante procesos automatizados de etiquetado y revisión humana.

  • Verificación de la coherencia de los datos: los equipos pueden supervisar los datos etiquetados para garantizar su coherencia mediante la implementación de procesos de control de calidad, como los acuerdos entre anotadores (IAA). Una IAA es una métrica estadística que mide el nivel de coherencia entre los diferentes anotadores a la hora de etiquetar los mismos datos.

  • Tratamiento del sesgo: los científicos de datos deben ser conscientes de los posibles sesgos en sus conjuntos de datos y tratar de evitarlos. Pueden emplear varias técnicas, como garantizar la diversidad de las prácticas de recopilación de datos utilizando múltiples y diversos anotadores para cada punto de datos, cruzando los datos con fuentes externas o utilizando estrategias de aumento de datos para grupos infrarrepresentados.

  • Actualización de datos de la verdad fundamental: los datos de la verdad fundamental son un activo dinámico. Las organizaciones pueden confirmar las predicciones de sus modelos con datos nuevos y actualizar el conjunto de datos etiquetado a medida que evolucionan las condiciones del mundo real. Las imágenes de satélite, los datos de teledetección y los modelos del cambio climático son todos ejemplos de conjuntos de datos que requieren una calibración continua para mantener la precisión a lo largo del tiempo.
Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.

Explore watsonx.governance
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Dirija, gestione y supervise su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Solicite una demostración en directo