¿Qué es la interpretabilidad de la IA?

Dos médicos revisando las tomografías de un paciente en un hospital

Autores

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la interpretabilidad de la IA?

La interpretabilidad de la IA ayuda a las personas a comprender y explicar mejor los procesos de toma de decisiones que potencian los modelos de inteligencia artificial (IA).

Los modelos de IA emplean una red compleja de entradas de datos, algoritmos, lógica, ciencia de datos y otros procesos para generar insights. Cuanto más complejo sea el modelo, más difícil puede ser para los humanos comprender los pasos que llevaron a sus insights, incluso si esos humanos fueron quienes lo diseñaron y construyeron. Un modelo interpretable es aquel cuyas decisiones los usuarios pueden entender fácilmente.

El uso de la IA se está expandiendo. Los sistemas que utilizan modelos de lenguaje grandes (LLM) se están convirtiendo en partes rutinarias de la vida cotidiana, desde dispositivos domésticos inteligentes hasta detección de fraudes con tarjetas de crédito y el amplio uso de ChatGPT y otras herramientas de IA generativa. A medida que los modelos altamente complejos (incluidos los algoritmos de aprendizaje profundo y las redes neuronales ) se vuelven más comunes, la interpretabilidad de la IA se vuelve más importante.

Además, los sistemas de IA y los algoritmos de machine learning son cada vez más frecuentes en la atención médica, las finanzas y otras industrias que implican decisiones críticas o que alteran la vida. Con tanto en juego, el público debe poder confiar en que los resultados son justos y confiables. Esa confianza depende de comprender cómo los sistemas de IA llegan a sus predicciones y toman sus decisiones.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Modelos de caja blanca frente a modelos de caja negra

Los modelos de IA de caja blanca tienen entradas y lógica que son fáciles de ver y entender. Por ejemplo, los decision trees básicos, que muestran un flujo claro entre cada paso, no son difíciles de descifrar para la persona promedio. Los modelos de caja blanca tienden a emplear sistemas de toma de decisiones más lineales que son fáciles de interpretar, pero pueden dar como resultado una menor precisión o menos insights convincentes o aplicaciones.

Los modelos de IA de caja negra son más complicados y ofrecen menos transparencia en su funcionamiento interno. El usuario generalmente no sabe cómo el modelo llega a sus resultados. Estos modelos más complejos tienden a ser más exactos y precisos. Pero debido a que son difíciles o imposibles de entender, surgen preocupaciones sobre su confiabilidad, imparcialidad, sesgos y otras cuestiones éticas. Hacer que los modelos de caja negra sean más interpretables es una forma de generar confianza en su uso.

AI Academy

Confianza, transparencia y gobernanza en IA

Es probable que la confianza en la IA sea el tema más importante en el campo de la IA. También es, comprensiblemente, un tema abrumador. Desentrañaremos cuestiones, como las alucinaciones, el sesgo y el riesgo, y compartiremos medidas para adoptar la IA de manera ética, responsable y justa.

Interpretabilidad de la IA frente a explicabilidad de la IA

La interpretabilidad de la IA se centra en la comprensión del funcionamiento interno de un modelo de IA, mientras que la explicabilidad de la IA pretende dar razones de los resultados del modelo.

La interpretabilidad tiene que ver con la transparencia, que permite a los usuarios comprender la arquitectura del modelo, las funciones que emplea y cómo las combina para ofrecer predicciones. Los procesos de toma de decisiones de un modelo interpretable son fácilmente comprensibles para el ser humano. Una mayor interpretabilidad requiere una mayor divulgación de sus operaciones internas.

La explicabilidad consiste en verificar, o proporcionar justificaciones para los resultados del modelo, a menudo después de que hace sus predicciones. La IA explicable (XAI) se utiliza para identificar los factores que llevaron a los resultados. Se pueden utilizar varios métodos de explicabilidad para presentar los modelos de manera que sus procesos complejos y la ciencia de datos subyacente sean claros para un ser humano que utiliza lenguaje natural.

¿Por qué es importante la interpretabilidad de la IA?

La interpretabilidad de la IA ayuda a depurar modelos, detectar sesgos, garantizar el cumplimiento de las regulaciones y generar confianza con los usuarios. Permite a los desarrolladores y usuarios ver cómo sus modelos afectan a las personas y a las empresas y desarrollarlos de manera responsable.

La interpretabilidad es importante por varias razones:

  • Confianza
  • Sesgo y equidad
  • Depuración
  • Cumplimiento regulatorio
  • Transferencia de conocimientos

Confianza

Sin interpretabilidad, los usuarios se quedan a oscuras. Esta falta de rendición de cuentas puede erosionar la confianza pública en la tecnología. Cuando los stakeholders comprenden completamente cómo un modelo toma sus decisiones, es más probable que acepten sus resultados. La interpretabilidad del modelo permite transparencia y claridad, lo que hace que los usuarios se sientan cómodos confiando en él en aplicaciones del mundo real, como diagnósticos médicos o decisiones financieras.

Sesgo y equidad

Los modelos de IA pueden amplificar los sesgos dentro de los datos de entrenamiento. Los resultados discriminatorios resultantes perpetúan las desigualdades sociales, pero también exponen a las organizaciones a riesgos legales y de reputación. Los sistemas de AI interpretables pueden ayudar a detectar si un modelo está tomando decisiones sesgadas basadas en características protegidas, como la raza, la edad o el género. La interpretabilidad permite a los desarrolladores de modelos identificar y mitigar patrones discriminatorios, lo que ayuda a garantizar resultados más justos.

Depuración

El machine learning (ML) interpretable permite a los creadores de algoritmos y modelos de ML identificar y corregir errores. Ningún modelo de ML es 100 % preciso desde el principio. Sin comprender el razonamiento de la IA, la depuración es un proceso ineficiente y arriesgado. Al comprender cómo funciona el modelo de ML, los desarrolladores y los científicos de datos pueden identificar las fuentes de predicciones incorrectas y optimizar el rendimiento del modelo. Este proceso, a su vez, aumenta su confiabilidad general y ayuda a la optimización.

Cumplimiento regulatorio

Algunas regulaciones, como la Equal Credit Opportunity Act (ECOA) en Estados Unidos o el Reglamento General de Protección de Datos (RGPD) en la Unión Europea, exigen que las decisiones que toman los sistemas automatizados sean transparentes y explicables. Y un número cada vez mayor de regulaciones específicas de la IA, incluida la Ley de IA de la UE, están estableciendo estándares para el desarrollo y el uso de la IA. Los modelos de IA interpretables pueden proporcionar explicaciones claras de sus decisiones, lo que ayuda a cumplir con estos requisitos normativos. La interpretabilidad también puede ayudar con cuestiones de auditoría, responsabilidad y protección de la privacidad de datos.

Transferencia de conocimientos

Sin interpretabilidad, los desarrolladores e investigadores podrían tener dificultades para traducir los insights de la IA en resultados aplicables en la práctica o avanzar en la tecnología con cambios. La interpretabilidad facilita la transferencia de conocimientos sobre los fundamentos y las decisiones de un modelo entre los stakeholders y el uso de sus conocimientos para fundamentar el desarrollo de otros modelos.

Tipos de interpretabilidad

El investigador de la Universidad de Stanford, Nigam Shah, identifica tres tipos principales de interpretabilidad: la interpretabilidad de los ingenieros, la interpretabilidad causal y la interpretabilidad que induce a la confianza.1

Interpretabilidad de ingenieros

Este tipo se centra en cómo el modelo de IA llegó a su resultado. Implica comprender el funcionamiento interno del modelo y es relevante para desarrolladores e investigadores que necesitan depurar o mejorar el modelo.

Interpretabilidad causal

Este tipo se centra en por qué el modelo produjo su resultado. Se trata de identificar los factores que tienen mayor influencia en las predicciones del modelo y cómo los cambios en estos factores afectan los resultados.

Interpretabilidad que induce a la confianza

Este tipo se centra en proporcionar explicaciones que generen confianza en los resultados del modelo. Implica presentar el proceso de toma de decisiones del modelo de una manera que sea comprensible y familiar para los usuarios, incluso si no tienen experiencia técnica.

Factores de interpretabilidad

Varias características influyen en la interpretabilidad de los modelos de IA:

  • Intrínseco frente a post hoc
  • Local frente a global
  • Específico del modelo frente a independiente del modelo

Intrínseco frente a post hoc

La interpretabilidad intrínseca se refiere a modelos que son inherentemente interpretables, como decision trees y modelos de regresión. Sus estructuras simples son fáciles de entender. Sin embargo, la interpretabilidad post hoc implica aplicar métodos de interpretación a modelos previamente entrenados para explicar su comportamiento. La interpretación post hoc es mejor para modelos más complejos o de caja negra.

Local vs. global

La interpretabilidad local se centra en explicar las predicciones individuales y ayuda a mostrar por qué el modelo llegó a un resultado particular. La interpretabilidad global tiene como objetivo comprender el comportamiento del modelo en todo el conjunto de datos, mostrando sus patrones y tendencias generales.

Específico del modelo frente a independiente del modelo

Los métodos de interpretabilidad específicos del modelo emplean la estructura interna de un modelo para proporcionar explicaciones. Los métodos independientes del modelo funcionan con cualquier tipo de modelo.

Métodos de interpretabilidad

Varios métodos pueden establecer la interpretabilidad en los modelos de IA.

Algunos modelos son lo suficientemente simples para la interpretación intrínseca. Estos modelos inherentemente interpretables se basan en estructuras sencillas, como decision trees, sistemas basados en reglas y regresiones lineales. Los humanos pueden comprender fácilmente los patrones y procesos de toma de decisiones de los modelos lineales.

Los modelos más complejos requieren una interpretación post hoc, en la que los métodos de interpretación se aplican a modelos previamente entrenados para explicar el resultado del modelo. Algunos métodos comunes de interpretación post hoc incluyen:

  • Local Interpretable Model-Agnostic Explanations (LIME)
  • Shapley Additive exPlanations (SHAP)
  • Partial Dependence Plots (PDPs)
  • Gráficos de expectativa condicional individual (ICE)

Explicaciones locales interpretables independientes del modelo (LIME)

LIME ayuda a explicar las predicciones de un modelo al centrarse en una sola predicción a la vez. Para ello, crea un modelo más simple que imita el comportamiento del modelo complejo para esa predicción específica. Utiliza la atribución de características para determinar la influencia de una característica particular (como la forma, el color u otro punto de datos) en el resultado del modelo. Por ejemplo, toma una predicción específica y luego genera muchas instancias similares modificando o ajustando ligeramente los valores de las características. A partir de ahí, crea un modelo más simple basado en estos valores de características "alterados" y sus resultados. En resumen, LIME proporciona una explicación local simplificada de cómo se comportaría el modelo complejo.

Explicaciones aditivas de Shapley (SHAP)

SHAP es un enfoque cooperativo al estilo de la teoría de juegos para la interpretabilidad que considera todas las combinaciones posibles de características y cómo afectan la predicción. Asigna un valor (llamado valor Shapley) a cada característica en función de cuánto contribuye a la predicción en diferentes escenarios. SHAP puede funcionar con cualquier sistema de machine learning. Ofrece explicaciones locales para predicciones individuales proporcionadas por algoritmos de machine learning y explicaciones globales para el modelo en su conjunto. Sin embargo, debido a su complejidad computacional, SHAP puede ser un método más lento y costoso.

Gráficos de dependencia parcial (PDP)

PDP muestra cómo una característica afecta a las predicciones del modelo, en promedio, en todo el conjunto de datos. Ayuda a visualizar la relación entre una entidad y el resultado del modelo, manteniendo constantes todas las demás características. Este método es útil para interpretar un pequeño número de características o cuando los stakeholders desean centrarse en un subconjunto específico de características.

Gráficos de expectativa condicional individual (ICE)

Los gráficos ICE muestran cuánto depende un resultado previsto de una característica específica. Son similares a los PDP, pero muestran la relación entre una característica y el resultado del modelo para instancias individuales, en lugar de promediar todo el conjunto de datos. Pueden complementar los PDP al proporcionar una visión más detallada del comportamiento del modelo, por ejemplo, resaltando la variabilidad y mostrando interacciones entre características a nivel de instancia. Y son útiles cuando los investigadores informáticos o los stakeholders desean identificar valores atípicos o patrones inusuales en el operaciones del modelo.

Interpretabilidad: Ejemplos y casos de uso

La interpretabilidad de la IA es importante en cualquier industria que utilice modelos de IA para tomar decisiones que afectan a las personas o a la sociedad. Algunas industrias en las que la interpretabilidad de la IA es relevante incluyen:

Atención médica

Los profesionales médicos utilizan la inteligencia artificial para el diagnóstico, las recomendaciones de tratamiento y la investigación. La interpretabilidad puede ayudar a los médicos y pacientes a confiar y comprender las decisiones de un modelo de IA e identificar sesgos o errores en su razonamiento.

Finanzas

Los profesionales de las finanzas pueden emplear IA para detectar fraudes, cuantificar el riesgo, asignar puntajes crediticios y hacer recomendaciones de inversiones. La interpretabilidad es esencial para el cumplimiento normativo y la auditoría en el sector financiero y bancario. Y comprender el proceso de toma de decisiones de un modelo para actividades como la aprobación de préstamos y la gestión de riesgos puede ayudar a evitar resultados sesgados.

Justicia penal

El sector de la justicia penal puede utilizar IA para analizar escenas del crimen, ADN y pruebas forenses y patrones delictivos locales o nacionales. Los usuarios también pueden recurrir a la IA para ofrecer recomendaciones de sentencia y realizar otras operaciones judiciales de rutina. La interpretabilidad es crítica para garantizar la equidad, la precisión y la responsabilidad.

Recursos humanos

Algunos departamentos de Recursos Humanos emplean la IA para la selección de currículos y la evaluación de candidatos. La interpretabilidad es una forma de prevenir la discriminación en el proceso inicial de contratación.

Seguros

La industria de seguros utiliza inteligencia artificial para evaluar riesgos, procesar reclamos de seguros y establecer precios. La interpretabilidad puede ayudar a los clientes a comprender sus primas y a las aseguradoras a justificar sus decisiones.

Atención al cliente

A medida que aumenta el número de funciones de marketing, ventas y atención al cliente que dependen de chatbots impulsado por IA, la interpretabilidad puede ofrecer importantes garantías. Entender por qué un chatbot hace una recomendación o toma una decisión genera confianza en el sistema de IA y ayuda a mejorar o personalizar sus ofertas.

Desafíos y limitaciones de la interpretabilidad de la IA

La interpretabilidad conlleva algunos desafíos y limitaciones.

A menudo hay una compensación entre el rendimiento del modelo y la interpretabilidad. Los modelos más simples o de caja blanca son más interpretables, pero pueden tener menor precisión en comparación con los modelos complejos de caja negra, como las redes neuronales profundas.

La interpretabilidad también se ve afectada por la falta de estandarización. Diferentes métodos pueden proporcionar diferentes explicaciones para el mismo modelo, lo que dificulta compararlos y validarlos sin marcos formales. Y la interpretabilidad suele ser subjetiva. Lo que puede considerarse fácil de entender para un usuario puede no ser suficiente para otro.

Algunos expertos dicen que la interpretabilidad no es necesaria en algunos casos o puede ser contraproducente en otros. Si el modelo es privado o no tiene un impacto significativo, o el problema ya es objeto de estudios ampliamente aceptados, una mayor interpretabilidad podría ser redundante o innecesaria. En algunos casos, una mayor interpretabilidad podría presentar problemas de seguridad, ya que una mayor transparencia podría permitir a actores maliciosos explotar un sistema o permitir a los usuarios manipular el sistema de una manera que socave su eficacia.

Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de gobernanza de la IA

Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra las soluciones de gobernanza de la IA
Servicios de consultoría sobre gobernanza de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.

Descubra los servicios de gobernanza de la IA
Dé el siguiente paso

Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Agende una demostración en vivo
Notas de pie de página

1 Miller, Katharine. Should AI models be explainable? That depends. Stanford Institute for Human-Centered Artificial Intelligence. Marzo de 2021.