La interpretabilidad de la IA ayuda a las personas a comprender y explicar mejor los procesos de toma de decisiones que impulsan los modelos de inteligencia artificial (IA).
Los modelos de IA utilizan una compleja red de entradas de datos, algoritmos, lógica, ciencia de datos y otros procesos para obtener conocimientos. Cuanto más complejo sea el modelo, más difícil puede ser para los humanos comprender los pasos que condujeron a sus conocimientos, incluso si esos humanos son los que lo diseñaron y construyeron. Un modelo interpretable es aquel cuyas decisiones pueden ser fácilmente entendidas por los usuarios.
El uso de la IA se está expandiendo. Los sistemas que utilizan modelos de lenguaje de gran tamaño (LLM) se están convirtiendo en parte rutinaria de la vida cotidiana, desde los dispositivos domésticos inteligentes hasta la detección del fraude con tarjetas de crédito y el amplio uso de ChatGPT y otras herramientas de IA generativa. A medida que los modelos altamente complejos (incluidos los algoritmos de deep learning y las redes neuronales) se vuelven más comunes, la interpretabilidad de la IA se vuelve más importante.
Además, los sistemas de IA y algoritmos de machine learning son cada vez más frecuentes en sanidad, las finanzas y otros sectores que involucran decisiones críticas o que alteran la vida. Con tanto en juego, el público necesita poder confiar en que los resultados son justos y confiables. Esa confianza depende de comprender cómo los sistemas de IA llegan a sus predicciones y toman sus decisiones.
Los modelos de IA de caja blanca tienen entradas y lógica que son fáciles de ver y entender. Por ejemplo, los árboles de decisión básicos, que muestran un flujo claro entre cada paso, no son difíciles de descifrar para la persona promedio. Los modelos de caja blanca tienden a utilizar sistemas de toma de decisiones más lineales que son fáciles de interpretar, pero pueden dar lugar a una menor precisión o a menos conocimiento o aplicaciones convincentes.
Los modelos de IA de caja negra son más complicados y ofrecen menos transparencia en su funcionamiento interno. El usuario generalmente no sabe cómo el modelo llega a sus resultados. Estos modelos más complejos tienden a ser más exactos y precisos. Pero, como son difíciles o imposibles de entender, surgen preocupaciones sobre su fiabilidad, imparcialidad, sesgos y otras cuestiones éticas. Hacer que los modelos de caja negra sean más interpretables es una forma de generar confianza en su uso.
La interpretabilidad de la IA se centra en la comprensión del funcionamiento interno de un modelo de IA, mientras que la explicabilidad de la IA pretende dar razones de los resultados del modelo.
La interpretabilidad tiene que ver con la transparencia, que permite a los usuarios comprender la arquitectura del modelo, las características que utiliza y cómo las combina para ofrecer predicciones. Los procesos de toma de decisiones de un modelo interpretable son fácilmente comprensibles para el ser humano. Una mayor interpretabilidad requiere una mayor divulgación de sus operaciones internas.
La explicabilidad tiene que ver con la verificación, o con proporcionar justificaciones para los resultados del modelo, a menudo después de que haga sus predicciones. La IA explicable (XAI) se utiliza para identificar los factores que condujeron a los resultados. Se pueden utilizar varios métodos de explicabilidad para presentar los modelos de forma que sus complejos procesos y la ciencia de datos subyacente resulten claros para un ser humano que utilice el lenguaje natural.
La interpretabilidad de la IA ayuda a depurar modelos, detectar sesgos, garantizar el cumplimiento de la normativa y generar confianza con los usuarios. Permite a los desarrolladores y usuarios ver cómo sus modelos afectan a las personas y a las empresas y desarrollarlos de forma responsable.
La interpretabilidad es importante por varias razones:
Sin interpretabilidad, los usuarios se quedan en la oscuridad. Esta falta de responsabilidad puede erosionar la confianza pública en la tecnología. Cuando las partes interesadas comprenden completamente cómo un modelo toma sus decisiones, es más probable que acepten sus resultados. La interpretabilidad del modelo permite transparencia y claridad, lo que hace que los usuarios se sientan cómodos confiando en él en aplicaciones del mundo real como diagnósticos médicos o decisiones financieras.
Los modelos de IA pueden amplificar los sesgos dentro de los datos de entrenamiento. Los resultados discriminatorios resultantes perpetúan las desigualdades sociales, pero también exponen a las organizaciones a riesgos legales y de reputación. Los sistemas de IA interpretables pueden ayudar a detectar si un modelo está tomando decisiones sesgadas basadas en características protegidas, como la raza, la edad o el sexo. La interpretabilidad permite a los desarrolladores de modelos identificar y mitigar patrones discriminatorios, lo que ayuda a garantizar resultados más justos.
El machine learning interpretable permite a los creadores de algoritmos y modelos de ML identificar y corregir errores. Ningún modelo de machine learning es 100 % preciso desde el principio. Sin entender el razonamiento de la IA, la depuración es un proceso ineficiente y arriesgado. Al comprender cómo funciona el modelo de ML, los desarrolladores y científicos de datos pueden identificar las fuentes de predicciones incorrectas y optimizar el rendimiento del modelo. Este proceso, a su vez, aumenta su fiabilidad general y ayuda a la optimización.
Algunas normativas, como la Ley de Igualdad de Oportunidades de Crédito (ECOA) de Estados Unidos o el Reglamento General de Protección de Datos (RGPD) de la Unión Europea, exigen que las decisiones tomadas por los sistemas automatizados sean transparentes y explicables. Y un número creciente de reglamentos específicos de la IA, incluida la Ley de IA de la UE de la Unión Europea, están estableciendo normas para el desarrollo y el uso de la IA. Los modelos de IA interpretables pueden ofrecer explicaciones claras de sus decisiones y ayudar a cumplir con estos requisitos reglamentarios. La interpretabilidad también puede ayudar con los problemas de auditoría, la responsabilidad y la protección de datos.
Sin interpretabilidad, los desarrolladores e investigadores podrían tener dificultades para traducir los conocimientos de la IA en resultados procesables o para hacer avanzar la tecnología con los cambios. La interpretabilidad facilita la transferencia de conocimientos sobre los fundamentos y las decisiones de un modelo entre las partes interesadas y el uso de sus conocimientos para informar el desarrollo de otros modelos.
Nigam Shah, investigador de la Universidad de Stanford, identifica tres tipos principales de interpretabilidad: la interpretabilidad de los ingenieros, la interpretabilidad causal y la interpretabilidad que induce a la confianza.1
Este tipo se centra en cómo el modelo de IA ha llegado a su resultado. Implica comprender el funcionamiento interno del modelo y es relevante para desarrolladores e investigadores que necesitan depurar o mejorar el modelo.
Este tipo se centra en las razones por las que el modelo produce sus resultados. Implica identificar los factores que tienen la mayor influencia en las predicciones del modelo y cómo los cambios en estos factores afectan los resultados.
Este tipo se centra en ofrecer explicaciones que generen confianza en los resultados del modelo. Se trata de presentar el proceso de toma de decisiones del modelo de forma comprensible y relacionable para los usuarios, aunque no tengan conocimientos técnicos.
Varias características influyen en la interpretabilidad de los modelos de IA:
La interpretabilidad intrínseca se refiere a modelos que son inherentemente interpretables, como árboles de decisión y modelos de regresión lineal. Sus estructuras simples son fáciles de entender. Sin embargo, la interpretabilidad post hoc implica aplicar métodos de interpretación a modelos preentrenados para explicar su comportamiento. La interpretación post hoc es mejor para modelos más complejos o de caja negra.
La interpretabilidad local se centra en explicar las predicciones individuales y ayuda a mostrar por qué el modelo alcanzó un resultado concreto. La interpretabilidad global tiene como objetivo comprender el comportamiento del modelo en todo el conjunto de datos, mostrando sus patrones y tendencias generales.
Los métodos de interpretabilidad específicos del modelo utilizan la estructura interna de un modelo para proporcionar explicaciones. Los métodos independientes del modelo funcionan con cualquier tipo de modelo.
Varios métodos pueden establecer la interpretabilidad en los modelos de IA.
Algunos modelos son lo suficientemente simples para la interpretación intrínseca. Estos modelos inherentemente interpretables se basan en estructuras sencillas como decision trees, sistemas basados en reglas y regresiones lineales. Los humanos pueden entender fácilmente los patrones y procesos de toma de decisiones de los modelos lineales.
Los modelos más complejos requieren una interpretación post hoc, en la que se aplican métodos de interpretación a modelos preentrenados para explicar el resultado del modelo. Algunos métodos comunes de interpretación post hoc incluyen:
LIME ayuda a explicar las predicciones de un modelo centrándose en una sola predicción a la vez. Para ello, crea un modelo más sencillo e interpretable que imita el comportamiento del modelo complejo para esa predicción concreta. Utiliza la atribución de características para determinar la influencia de una característica concreta (como la forma, el color u otro punto de datos) en el resultado del modelo. Por ejemplo, toma una predicción específica y luego genera muchas instancias similares modificando o ajustando ligeramente los valores de las características. A partir de ahí, crea un modelo más sencillo e interpretable basado en estos valores de características "perturbados" y sus resultados. En resumen, LIME proporciona una explicación local simplificada de cómo se comportaría el modelo complejo.
SHAP es un enfoque de interpretabilidad basado en la teoría de juegos cooperativos que considera todas las combinaciones posibles de características y cómo afectan la predicción. Asigna un valor (llamado valor Shapley) a cada característica en función de cuánto contribuye a la predicción en diferentes escenarios. SHAP puede funcionar con cualquier sistema de machine learning. Ofrece explicaciones locales para las predicciones individuales que proporcionan los algoritmos de machine learning y explicaciones globales para el modelo en su conjunto. Sin embargo, dada su complejidad computacional, SHAP puede ser un método más lento y más costoso.
Los PDP muestran cómo una característica afecta a las predicciones del modelo, en promedio, en todo el conjunto de datos. Ayudan a visualizar la relación entre una característica y el resultado del modelo, manteniendo constantes todas las demás características. Este método es útil para interpretar un pequeño número de características o cuando las partes interesadas quieren centrarse en un subconjunto específico de características.
Los gráficos ICE muestran cuánto depende un resultado previsto de una característica específica. Son similares a las PDP, pero muestran la relación entre una característica y el resultado del modelo para instancias individuales, en lugar de hacer una media de todo el conjunto de datos. Pueden complementar las PDP al ofrecer una visión más detallada del comportamiento del modelo, por ejemplo, resaltando la variabilidad y mostrando las interacciones entre características a nivel de instancia, y son útiles cuando los investigadores informáticos o las partes interesadas desean identificar valores atípicos o patrones inusuales en las operaciones del modelo.
La interpretabilidad de la IA es importante en cualquier sector que utilice modelos de IA para tomar decisiones que afecten a las personas o a la sociedad. Algunos sectores en los que la interpretabilidad de la IA es relevante incluyen:
Los profesionales médicos utilizan la inteligencia artificial para el diagnóstico, las recomendaciones de tratamiento y la investigación. La interpretabilidad puede ayudar a médicos y pacientes a confiar y comprender las decisiones de un modelo de IA e identificar sesgos o errores en su razonamiento.
Los profesionales de las finanzas pueden utilizar la IA para detectar fraudes, cuantificar el riesgo, asignar puntuaciones de crédito y hacer recomendaciones de inversión. La interpretabilidad es esencial para el cumplimiento normativo y la auditoría en el sector financiero y bancario. Y comprender el proceso de toma de decisiones de un modelo para actividades como la aprobación de préstamos y la gestión de riesgos puede ayudar a evitar resultados sesgados.
El sector de la justicia penal puede utilizar la IA para analizar escenas del crimen, pruebas forenses y de ADN y patrones delictivos locales o nacionales. Los usuarios también podrían recurrir a la IA para ofrecer recomendaciones de sentencia y realizar otras operaciones judiciales rutinarias. La interpretabilidad es crítico para garantizar la imparcialidad, la precisión y la responsabilidad.
Algunos departamentos de recursos humanos utilizan la IA para la selección de currículos y la evaluación de candidatos. La interpretabilidad es una forma de evitar la discriminación en el proceso inicial de contratación.
El sector de los seguros utiliza la inteligencia artificial para evaluar el riesgo, procesar las reclamaciones de seguros y fijar los precios. La interpretabilidad puede ayudar a los clientes a comprender sus primas y a las aseguradoras a justificar sus decisiones.
A medida que más funciones de marketing, ventas y servicio de atención al cliente dependen de chatbots con IA, la interpretabilidad puede ofrecer salvaguardas importantes. Comprender por qué un chatbot hace una recomendación o toma una decisión genera confianza en el sistema de IA y ayuda a mejorar o personalizar sus ofertas.
La interpretabilidad conlleva algunos desafíos y limitaciones.
A menudo existe un equilibrio entre el rendimiento del modelo y la interpretabilidad. Los modelos más sencillos o de caja blanca son más interpretables, pero su precisión puede ser menor que la de los modelos complejos de caja negra, como las redes neuronales profundas.
La interpretabilidad también se ve afectada por la falta de estandarización. Diferentes métodos pueden proporcionar diferentes explicaciones para el mismo modelo, lo que dificulta compararlos y validarlos sin marcos formales. Y la interpretabilidad suele ser subjetiva. Lo que puede considerarse fácil de entender para un usuario puede no ser suficiente para otro.
Algunos expertos afirman que la interpretabilidad no es necesaria en algunos casos, o puede ser contraproducente en otros. Si el modelo es privado o no tiene un impacto significativo, o el problema ya es objeto de un estudio muy aceptado, una mayor interpretabilidad podría ser redundante o innecesaria. En algunos casos, una mayor interpretabilidad podría plantear problemas de seguridad, ya que una mayor transparencia podría permitir a los malos actores aprovecharse de un sistema o a los usuarios jugar con el sistema de forma que se menoscabe su eficacia.
Descubra cómo afectará la Ley de IA de la UE a las empresas, cómo prepararse, cómo puede mitigar los riesgos y cómo equilibrar la regulación y la innovación.
Conozca los nuevos retos de la IA generativa, la necesidad de gobernar los modelos de IA y ML y los pasos para crear un marco de IA fiable, transparente y explicable.
Lea sobre cómo impulsar prácticas éticas y conformes con la normativa con una cartera de productos de IA para modelos de IA generativa.
Obtenga una comprensión más profunda de cómo garantizar la equidad, gestionar la desviación, mantener la calidad y mejorar la explicabilidad con watsonx.governance.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
Simplifique la gestión de riesgos y el cumplimiento normativo con una plataforma GRC unificada.
1 Miller, Katharine. Should AI models be explainable? That depends. Stanford Institute for Human-Centered Artificial Intelligence. Marzo de 2021.