¿Qué es la verdad fundamental?

20 de diciembre de 2024

Autores

Alexandra Jonker

Editorial Content Lead

¿Qué es la verdad fundamental?

La verdad fundamental o los datos de verdad fundamental se refiere a datos verificados y verdaderos utilizados para entrenar, validar y probar modelos de inteligencia artificial (IA).
 

En el campo de la ciencia de datos, los datos de verdad fundamental representan el estándar de referencia de los datos precisos. Permite a los científicos de datos evaluar el rendimiento del modelo comparando los resultados con la "respuesta correcta" (datos basados en observaciones del mundo real). Esto valida que los modelos de machine learning (ML) producen resultados precisos que reflejan la realidad.

Los datos de verdad fundamental son especialmente importantes para el aprendizaje supervisado, una subcategoría del ML que emplea conjuntos de datos etiquetados para entrenar algoritmos para clasificar datos (clasificadores) o predecir resultados con precisión.

El etiquetado o la anotación de datos es fundamental para la recopilación de datos de verdad fundamental. Sin etiquetas o anotaciones precisas, los datos no pueden considerarse un punto de referencia para la verdad del mundo real.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

¿Por qué son importantes los datos de verdad fundamental?

Los datos de verdad fundamental son la base del machine learning supervisado, que depende de conjuntos de datos de alta calidad. Los modelos de ML supervisado se utilizan para construir y avanzar muchas de las aplicaciones de IA actuales. Por ejemplo, los modelos de ML supervisado están detrás del reconocimiento de imágenes y objetos, los análisis predictivos, el análisis del sentimiento del cliente y la detección de spam.

Los datos de verdad fundamental proporcionan la información etiquetada y verificada con la precisión necesaria para entrenar modelos de ML supervisado, validar su rendimiento y probar su capacidad para generalizar (o hacer predicciones precisas basadas en nuevos datos). Al actuar como la "respuesta correcta" en comparación con las predicciones del modelo, la verdad fundamental ayuda a garantizar que los sistemas de IA aprendan los patrones correctos y tengan un rendimiento confiable en escenarios del mundo real.

Por ejemplo, imagine la foto de un gato. El conjunto de datos de entrenamiento para esta imagen podría incluir etiquetas para el cuerpo, las orejas, los ojos y los bigotes del gato, clasificaciones hasta el nivel de pixel. Estas anotaciones enseñan a algoritmos de machine learning a identificar características similares en los nuevos datos de imagen.

La precisión de estas etiquetas de conjuntos de entrenamiento es crítica. Si las anotaciones son incorrectas o incongruentes (como etiquetar patas de perro en lugar de patas de gato), el modelo no aprende los patrones correctos. Esto puede llevar a predicciones falsas.

Un gato con patas de perro puede parecer inofensivo. Sin embargo, el riesgo de predicciones erróneas es mayor en ámbitos como la atención médica y la mitigación del cambio climático, donde la precisión en tiempo real es primordial.  

Mixture of Experts | 25 de abril, episodio 52

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

La verdad fundamental a lo largo del ciclo de vida del ML

La verdad fundamental es esencial para el ciclo de vida del machine learning (ML) supervisado, incluidas las fases de entrenamiento, validación y prueba del modelo.

  • Entrenamiento: durante la fase de entrenamiento, los datos de verdad fundamental proporcionan las respuestas correctas para que el modelo aprenda. La precisión del etiquetado de datos es crucial: si los datos de verdad fundamental son incorrectos o incongruentes, el modelo aprende patrones incorrectos y tiene dificultades para hacer predicciones precisas.

  • Validación: cuando se entrena el modelo, se evalúa qué tan bien ha aprendido de los datos reales. Esto se hace a través de la validación, donde las predicciones del modelo se comparan con una muestra diferente de los datos reales. El modelo se puede ajustar y perfeccionar en esta etapa.
  • Pruebas: una vez que el modelo ha sido entrenado y validado, las pruebas con un nuevo conjunto de datos reales ayudan a garantizar que funcione bien con datos nuevos e inéditos (generalización). Aquí es donde realmente se evalúa la eficacia del modelo en escenarios del mundo real. Las métricas como la exactitud, la precisión y la recuperación evalúan el rendimiento del modelo y destacan las áreas de mejora.

Verdad fundamental en diferentes tareas de ML

La verdad fundamental sirve como base para varias tareas de aprendizaje supervisadas, incluidas la clasificación, la regresión y la segmentación. Ya sea que un modelo esté aprendiendo a categorizar datos, predecir resultados numéricos o identificar objetos en imágenes, la verdad fundamental proporciona el punto de referencia para predicciones precisas. Estas tareas tienen casos de uso reales de amplio alcance donde la precisión de los datos de verdad fundamental es crucial para el éxito.

Clasificación

En las tareas de clasificación, los datos de verdad fundamental proporcionan las etiquetas correctas para cada entrada, lo que ayuda al modelo a categorizar los datos en clases predefinidas. Por ejemplo, en la clasificación binaria, un modelo distingue entre dos categorías (como verdadero o falso). La clasificación multiclase es un poco más compleja: el modelo asigna datos a una de varias clases que debe elegir.  

Considere la industria de la atención médica. Las plataformas de IA suelen utilizar la clasificación multiclase para analizar imágenes médicas, como tomografías computarizadas y resonancias magnéticas, para ayudar en el diagnóstico.

En términos generales, una aplicación de IA puede observar una radiografía de un brazo y clasificarlo en una de cuatro clases: roto, fracturado, con esguince o sano. Si los datos de verdad fundamental son erróneos, pueden dar lugar a predicciones incorrectas, lo que llevaría a diagnósticos erróneos o retrasos en los tratamientos.

Regresión

Las tareas de regresión se centran en predecir valores continuos. Los datos de verdad fundamental representan los resultados numéricos reales que el modelo busca predecir. Por ejemplo, un modelo de regresión lineal puede predecir los precios de viviendas en función de factores, como la superficie, el número de habitaciones y la ubicación.

En la mitigación del cambio climático, los modelos de IA usan imágenes de satellite y datos de teledetección para monitorear los cambios medioambientales, como las variaciones de temperatura o la deforestación.

En este caso, los datos de verdad fundamental incluyen registros verificados de datos meteorológicos históricos o mediciones de temperatura conocidas. Estos datos de verdad fundamental ayudan a garantizar que las predicciones del modelo de IA sean precisas y puedan fundamentar decisiones críticas sobre políticas y acción climática.

Segmentación

Las tareas de segmentación implican desglosar una imagen o conjunto de datos en distintas regiones u objetos. Los datos de verdad fundamental en la segmentación a menudo se definen a nivel de píxel para identificar límites o regiones dentro de una imagen.

Por ejemplo, en el desarrollo de vehículos autónomos, las etiquetas de verdad fundamental se utilizan para entrenar modelos para detectar y diferenciar entre peatones, vehículos y señales de tráfico en entornos del mundo real y actuar en consecuencia. Si las etiquetas de verdad fundamental son incorrectas o incoherentes, el modelo podría identificar erróneamente los objetos, lo que plantearía graves riesgos de seguridad en la carretera.

Desafíos comunes para establecer la verdad fundamental

Existen varios desafíos para establecer datos de verdad fundamental de alta calidad, entre ellos:

  • Etiquetado de datos incoherente: los científicos de datos a menudo encuentran variabilidad en los conjuntos de datos, lo que puede llevar a incoherencias que afecten el comportamiento del modelo. Incluso los errores menores de etiquetado en atribuciones y citas pueden agravarse, lo que da como resultado errores de predicción del modelo.

  • Subjetividad y ambigüedad: muchas tareas de etiquetado de datos requieren juicio humano, que puede ser subjetivo. Por ejemplo, en tareas como el análisis de sentimientos, diferentes anotadores pueden interpretar los datos de manera distinta, lo que genera incongruencias en la verdad fundamental.

  • Complejidad de los datos: los conjuntos de datos grandes y diversos, comunes en campos como el procesamiento de lenguaje natural (PLN) o la inteligencia artificial (IA) generativa, pueden ser más difíciles de anotar con precisión. La complejidad de los datos, con múltiples etiquetas posibles y matices contextuales, puede hacer más difícil establecer una verdad fundamental coherente.

  • Datos desvirtuados y con sesgo: es posible que los datos de verdad fundamental no siempre sean completamente representativos de los escenarios del mundo real, especialmente si el conjunto de datos etiquetado está incompleto o desequilibrado. Esto puede generar modelos con sesgo.

  • Escalabilidad y costo: etiquetar grandes conjuntos de datos, en particular aquellos que requieren conocimiento experto y observación directa (como imágenes médicas), requiere mucho tiempo y es costoso. Escalar los esfuerzos de etiquetado de datos para satisfacer las demandas de los sistemas modernos de IA a menudo requiere automatización o crowdsourcing, pero estos enfoques aún pueden introducir errores o incongruencias.

Estrategias para establecer datos de verdad fundamental de alta calidad

Existen varias estrategias y metodologías que las organizaciones pueden utilizar para establecer y optimizar datos de verdad fundamental de alta calidad, que incluyen:

  • Definir del objetivo y los requisitos de datos: definir claramente los objetivos del modelo ayuda a las empresas a determinar los tipos de datos y etiquetas necesarios para que el proceso de recopilación de datos se alinee con el uso previsto del modelo. Esta alineación es especialmente importante en áreas, como la visión artificial, en la que el ML y las redes neuronales enseñan a los sistemas a derivar información significativa a partir de entradas visuales.

  • Desarrollar una estrategia de etiquetado integral: las organizaciones pueden crear pautas estandarizadas para etiquetar los datos de verdad fundamental para ayudar a garantizar la coherencia y precisión en todo el conjunto de datos. Un esquema de etiquetado bien definido podría guiar cómo anotar varios formatos de datos y mantener las anotaciones uniformes durante el desarrollo del modelo.

  • Recurrir a la colaboración entre humanos y máquinas: las herramientas de machine learning, como Amazon SageMaker Ground Truth o IBM® Watson Natural Language Understanding, pueden ampliar la experiencia de los anotadores humanos. Por ejemplo, Amazon SageMaker Ground Truth proporciona un servicio de etiquetado de datos que facilita la creación de conjuntos de datos de entrenamiento de alta calidad a través de procesos automatizados de etiquetado y revisiones humanas.

  • Verificación de la coherencia de los datos: los equipos pueden supervisar la coherencia de los datos etiquetados mediante la implementación de procesos de garantía de calidad, como los acuerdos entre anotadores (IAA). Un IAA es una métrica estadística que mide el nivel de coherencia entre diferentes anotadores al etiquetar los mismos datos.

  • Abordar los sesgos: los científicos de datos deben ser conscientes de los posibles sesgos en sus conjuntos de datos y tratar de evitarlos. Pueden emplear varias técnicas, como garantizar la diversidad de las prácticas de recopilación de datos a través de múltiples y diversos anotadores para cada punto de datos, cotejando los datos con fuentes externas o mediante estrategias de aumento de datos para grupos infrarrepresentados.

  • Actualización de datos de verdad fundamental: los datos de verdad fundamental son un activo dinámico. Las organizaciones pueden confirmar las predicciones de su modelo con nuevos datos y actualizar el conjunto de datos etiquetado a medida que evolucionan las condiciones del mundo real. Las imágenes satelitales, los datos de teledetección y los modelos de cambio climático son ejemplos de conjuntos de datos que requieren una valoración continua para mantener la precisión a lo largo del tiempo.
Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Explore watsonx.governance
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Reserve una demostración en vivo