¿Qué es el sesgo de datos?

Dos personas con una computadora portátil y una tableta junto a una pantalla digital con gráficos y tablas

Autores

Julie Rogers

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es el sesgo de datos?

El sesgo de datos ocurre cuando los sesgos presentes en los conjuntos de datos de entrenamiento y ajuste de los modelos de inteligencia artificial (IA) afectan negativamente el comportamiento del modelo.

Los modelos de IA son programas que han sido entrenados en conjuntos de datos para reconocer ciertos patrones o tomar ciertas decisiones. Aplican diferentes algoritmos a las entradas de datos relevantes para lograr las tareas o resultados para los que han sido programados.

Entrenar un sistema de IA con datos sesgados, como sesgos históricos o de representación, podría dar lugar a la producción de resultados sesgados o desviados que pueden representar injustamente o discriminar a determinados grupos o personas. Estos impactos erosionan la confianza en la IA y en las organizaciones que la utilizan. También pueden dar lugar a sanciones legales y normativas para las empresas.

El sesgo de datos es una consideración importante para las industrias de alto riesgo, como la atención médica, los recursos humanos y las finanzas, que utilizan cada vez más la IA para ayudar a fundamentar la toma de decisiones. Las organizaciones pueden mitigar el sesgo de datos comprendiendo los diferentes tipos de sesgo de datos y cómo ocurren, e identificando, reduciendo y gestionando estos sesgos a lo largo del ciclo de vida de la IA.

¿Cuáles son los riesgos de sesgo de los datos?

El sesgo de datos puede generar sistemas de IA injustos, inexactos y poco confiables, lo que tiene graves consecuencias para las personas, las empresas y la sociedad. Algunos riesgos de sesgo de datos incluyen:

Discriminación y desigualdad

El sesgo de datos dentro de los sistemas de IA puede perpetuar los sesgos sociales existentes, lo que lleva a un trato injusto basado en características, como el género, la edad, la raza o el origen étnico. Los grupos marginados pueden estar subrepresentados o excluidos de los datos, lo que da como resultado decisiones que no abordan las necesidades de la población real.

Por ejemplo, un algoritmo de contratación entrenado principalmente con datos de una fuerza laboral masculina homogénea podría favorecer a los candidatos masculinos mientras perjudica a las solicitantes femeninas calificadas, perpetuando la desigualdad de género en el lugar de trabajo.

Predicciones y decisiones inexactas

Los modelos de IA entrenados con datos sesgados pueden producir resultados incorrectos, lo que puede hacer que las organizaciones tomen malas decisiones o propongan soluciones ineficaces. Por ejemplo, las empresas que empleen análisis predictivos sesgados podrían interpretar erróneamente las tendencias del mercado, lo que daría lugar a un lanzamiento deficiente de productos o a una mala asignación de recursos.

Consecuencias legales y éticas

El sesgo de datos puede poner a las organizaciones en riesgo de escrutinio regulatorio, incumplimiento legal y multas sustanciales. Por ejemplo, según la Ley de IA de la UE, incumplir las prácticas prohibidas de la IA puede acarrear multas de hasta 35 000 000 EUR o el 7 % de la facturación anual mundial, lo que sea mayor.

Las organizaciones que infrinjan las leyes locales y regionales también podrían ver una erosión de la reputación y la confianza de los clientes. Considere una empresa de venta minorista declarada culpable de discriminación por utilizar un modelo de precios impulsado por IA que cobraba precios más altos a ciertos grupos demográficos. Esta situación podría resultar en una crisis de relaciones públicas que perjudique la imagen de marca de la empresa y la lealtad de los clientes.

Pérdida de confianza

El sesgo de datos puede erosionar la confianza en los sistemas de IA. Los casos graves o repetidos de decisiones con sesgo o inexactas impulsadas por IA pueden incitar a las personas y las comunidades a cuestionar la integridad de la organización que despliega la IA. La gente también podría volverse cada vez más escéptica sobre la confiabilidad y la equidad de la IA en general, lo que llevaría a una mayor reticencia a adoptar la tecnología.

Bucles de feedback

Los sistemas de IA que emplean resultados sesgados como datos de entrada para la toma de decisiones crean un ciclo de retroalimentación que también puede reforzar el sesgo con el tiempo. Este ciclo, en el que el algoritmo aprende continuamente y perpetúa los mismos patrones sesgados, conduce a resultados cada vez más sesgados.

Por ejemplo, la discriminación histórica, como la denegación de servicios financieros a las personas en función de su raza, puede reflejarse en los datos de entrenamiento para un modelo de IA encargado de la toma de decisiones sobre préstamos bancarios. A medida que un sistema de IA procesa aplicaciones utilizando estos datos, podría penalizar injustamente a las personas que comparten características socioeconómicas con las víctimas de las líneas rojas en años pasados. Los datos de esos rechazos de préstamos más recientes podrían fundamentar la futura toma de decisiones de la IA, lo que llevaría a un ciclo en el que los miembros de grupos subrepresentados sigan recibiendo menos oportunidades de crédito.

Sesgo de la IA, sesgo algorítmico y sesgo de datos

El sesgo de los datos, el sesgo de la IA y el sesgo algorítmico pueden dar lugar a resultados distorsionados y potencialmente perjudiciales, pero existen diferencias sutiles entre estos términos.

sesgo en la ai

El sesgo de la IA, también llamado sesgo de machine learning, es un término general para los diferentes tipos de sesgo asociados con los sistemas de inteligencia artificial. Se refiere a la aparición de resultados con sesgo debido a sesgos humanos que distorsionan los datos de entrenamiento originales o el algoritmo de IA.

Sesgo algorítmico

El sesgo algorítmico es un subconjunto del sesgo de IA que ocurre cuando los errores sistémicos en los algoritmos de machine learning producen resultados injustos o discriminatorios. El sesgo algorítmico no es causado por el algoritmo en sí, sino por la forma en que los desarrolladores recopilan y codifican los datos de entrenamiento.

Sesgo de datos

El sesgo de datos también se clasifica dentro del sesgo de IA y puede ser una de las causas del sesgo algorítmico. El sesgo de datos se refiere específicamente a la naturaleza sesgada o no representativa de los datos utilizados para entrenar un modelo de IA.

Diseño 3D de pelotas rodando en una pista

Las últimas noticias e insights sobre IA 


Insights curados por expertos y noticias sobre IA, la nube y más en el boletín semanal Think. 

¿Cuáles son los diferentes tipos de sesgo de datos?

Comprender y abordar los diferentes tipos de sesgos puede ayudar a crear sistemas de IA precisos y confiables. Algunos tipos comunes de sesgo de datos incluyen:

  • Sesgo cognitivo
  • Sesgo de automatización
  • Sesgo de confirmación
  • Sesgo de exclusión
  • Sesgo histórico (temporal)
  • Sesgo implícito
  • Sesgo de medición
  • Sesgo de informes
  • Sesgo de selección
  • Sesgo de muestreo

Sesgo cognitivo

Cuando las personas procesan información y toman decisiones, inevitablemente se ven influenciadas por sus experiencias y preferencias. Como resultado, las personas pueden incorporar estos sesgos en los sistemas de IA a través de la selección de datos o la forma en que se ponderan los datos. El sesgo cognitivo podría conducir a errores sistemáticos, como favorecer conjuntos de datos recopilados de estadounidenses en lugar de tomar muestras de una variedad de poblaciones en todo el mundo.

Sesgo de automatización

El sesgo de automatización ocurre cuando los usuarios confían excesivamente en las tecnologías automatizadas, lo que lleva a una aceptación poco crítica de sus resultados, lo que puede perpetuar y amplificar los sesgos de datos existentes. Por ejemplo, en la atención médica, un médico podría depender en gran medida de una herramienta de diagnóstico de IA para sugerir planes de tratamiento para los pacientes. Al no verificar los resultados de la herramienta con su propia experiencia clínica, el médico podría potencialmente diagnosticar erróneamente a un paciente si la decisión de la herramienta se basa en datos sesgados.

Sesgo de confirmación

El sesgo de confirmación ocurre cuando los datos se incluyen selectivamente para confirmar creencias o hipótesis preexistentes. Por ejemplo, el sesgo de confirmación ocurre en la vigilancia predictiva cuando las autoridades enfocan la recopilación de datos en vecindarios con tasas de delincuencia históricamente altas. Esto da como resultado una vigilancia excesiva de estos vecindarios, debido a la inclusión selectiva de datos que respaldan los supuestos existentes sobre el área.

Sesgo de exclusión

El sesgo de exclusión se produce cuando se dejan datos importantes fuera de los conjuntos de datos. En las predicciones económicas, la exclusión sistemática de los datos de las zonas de bajos ingresos da lugar a conjuntos de datos que son representativos de la población de manera precisa, lo que lleva a pronósticos económicos que se inclinan a favor de las zonas más adineradas.

Sesgo histórico (temporal)

El sesgo histórico, también conocido como sesgo temporal, ocurre cuando los datos reflejan desigualdades históricas o sesgos que existieron durante la recopilación de datos, a diferencia del contexto actual. Algunos ejemplos de sesgo de datos en esta categoría incluyen sistemas de contratación de IA entrenados con datos históricos de empleo. En estos conjuntos de datos, las personas de color podrían estar subrepresentadas en puestos de alto nivel, y el modelo podría perpetuar la desigualdad.

Sesgo implícito

El sesgo implícito ocurre cuando las suposiciones de las personas basadas en experiencias personales, en lugar de datos más generales, se introducen en la construcción o prueba de ML. Por ejemplo, un sistema de IA entrenado para evaluar a los solicitantes de empleo podría priorizar los currículos con lenguaje codificado masculino, reflejando el sesgo inconsciente del desarrollador, a pesar de que el género no es un factor explícito en el modelo.

Sesgo de medición

El sesgo de medición puede ocurrir cuando la precisión o la calidad de los datos difieren entre los grupos o cuando las variables clave del estudio se miden o clasifican de manera incorrecta. Por ejemplo, un modelo de admisión a la universidad que utiliza GPA altos como su principal factor de aceptación no considera que las calificaciones más altas podrían ser más fáciles de lograr en ciertas escuelas que en otras. Un estudiante con un GPA más bajo, pero una carga de cursos más desafiante en una escuela, podría ser un candidato más capaz que un estudiante con un GPA más alto, pero una carga de cursos menos desafiante en otro lugar. Dado su énfasis en los GPA, es posible que el modelo no tenga en cuenta esta posibilidad en sus procesos de toma de decisiones.

Sesgo de informes

El sesgo de notificación ocurre cuando la frecuencia de los eventos o resultados en el conjunto de datos no es representativa de la frecuencia real. Este sesgo a menudo ocurre cuando los humanos están involucrados en la selección de datos, ya que es más probable que las personas documenten evidencia que parece importante o memorable.

Por ejemplo, se entrena un modelo de análisis de sentimientos para predecir si los productos de un gran sitio web de comercio electrónico tienen una calificación positiva o negativa. La mayoría de los comentarios de productos similares en el conjunto de datos de entrenamiento reflejan opiniones extremas, porque es menos probable que las personas dejen un comentario si no respondieron con firmeza, lo que hace que las predicciones del modelo sean menos precisas.

Sesgo de selección

El sesgo de selección ocurre cuando el conjunto de datos utilizado para el entrenamiento no es lo suficientemente representativo, no es lo suficientemente grande o está demasiado incompleto para entrenar suficientemente al sistema. Por ejemplo, entrenar un automóvil autónomo con datos de conducción diurna no es representativo de la gama completa de escenarios de conducción que el vehículo podría encontrar en el mundo real.

Sesgo de muestreo

El sesgo de muestreo es un tipo de sesgo de selección que ocurre cuando los datos de la muestra se recopilan de una manera en la que es más probable que se incluya cierta información que otra información, sin una aleatorización adecuada. Por ejemplo, si un sistema de IA médica diseñado para predecir el riesgo de enfermedad cardíaca se entrenó únicamente con datos de pacientes varones de mediana edad, podría proporcionar predicciones inexactas. Este sistema afectaría especialmente a las mujeres y a las personas de otros grupos de edad.

Mitigación del sesgo de datos

La mitigación del sesgo dentro de la IA comienza con la gobernanza de la IA. La gobernanza de la IA se refiere a las pautas que funcionan para ayudar a garantizar que las herramientas y los sistemas de la IA sean y sigan siendo seguros y éticos. Las prácticas de IA responsable, que hacen hincapié en la transparencia, la responsabilidad y las consideraciones éticas, pueden guiar a las organizaciones a navegar por las complejidades de la mitigación de sesgos.

Para mitigar el sesgo de datos, las organizaciones deben implementar estrategias y prácticas sólidas destinadas a identificar, reducir y gestionar el sesgo a lo largo de la recopilación y el análisis de datos, como:

  • Recopilación de datos representativos
  • Auditorías y evaluaciones
  • Transparencia
  • Herramientas de detección de sesgos
  • Equipos inclusivos
  • Datos sintéticos

Recopilación de datos representativos

Una amplia representación en las fuentes de datos ayuda a reducir el sesgo. El proceso de recopilación de datos debe abarcar una amplia gama de datos demográficos, contextos y condiciones que estén adecuadamente representados. Por ejemplo, si los datos recopilados para las herramientas de reconocimiento facial incluyen predominantemente imágenes de personas blancas, es posible que el modelo no reconozca o diferencie con precisión las caras negras.

Auditorías y evaluaciones

Las auditorías de sesgo permiten a las organizaciones evaluar periódicamente sus datos y algoritmos en busca de posibles sesgos, revisando los resultados y examinando las fuentes de datos en busca de indicadores de trato injusto entre diferentes grupos demográficos. El monitoreo continuo del rendimiento en varios grupos demográficos ayuda a detectar y abordar las discrepancias en los resultados, lo que permite garantizar que cualquier sesgo presente se identifique y se elimine de manera oportuna.

Transparencia

Documentar los métodos de recopilación de datos y cómo los algoritmos toman decisiones mejora la transparencia, particularmente en lo que respecta a cómo se identifican y abordan los posibles sesgos. Las políticas de datos abiertos pueden facilitar la revisión externa y comentarios, promoviendo la rendición de cuentas en la recopilación y el análisis de datos, lo cual es esencial para fomentar la confianza en los sistemas de IA.

Herramientas de detección de sesgos

El uso de herramientas y marcos de equidad algorítmica puede ayudar a detectar y mitigar el sesgo en los modelos de machine learning. AI Fairness 360, un kit de herramientas de código abierto desarrollado por IBM, proporciona varias métricas para detectar sesgos en conjuntos de datos y modelos de machine learning, junto con algoritmos para mitigar el sesgo y promover la equidad. La implementación de métodos estadísticos para evaluar la imparcialidad de las predicciones en diferentes grupos demográficos puede mejorar aún más la objetividad.

Equipos inclusivos

Fomentar la diversidad en los equipos de ciencia de datos y analytics introduce varias perspectivas y puede reducir el riesgo de sesgo. Es más probable que los equipos diversos reconozcan y aborden los posibles sesgos en los conjuntos de datos y algoritmos porque se basan en una gama más amplia de experiencias y puntos de vista. Por ejemplo, un equipo que incluye miembros de diferentes orígenes raciales, de género y socioeconómicos puede identificar mejor las áreas en las que los datos podrían tergiversarse o pasarse por alto para ciertos grupos de personas.

Datos sintéticos

Los datos sintéticos son datos generados artificialmente y creados a través de simulación por computadora o algoritmos para reemplazar los puntos de datos recopilados de eventos del mundo real. Los científicos de datos a menudo consideran que los datos sintéticos son una alternativa beneficiosa cuando los datos no están fácilmente disponibles y porque ofrecen más protección de la privacidad de datos. Los datos sintéticos mitigan el sesgo al permitir la creación intencional de conjuntos de datos equilibrados que incluyen grupos y escenarios subrepresentados para ayudar a garantizar resultados más equitativos del modelo.

Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de gobernanza de la IA

Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra las soluciones de gobernanza de la IA
Servicios de consultoría sobre gobernanza de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.

Descubra los servicios de gobernanza de la IA
Dé el siguiente paso

Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Agende una demostración en vivo