A interpretabilidade da IA ajuda as pessoas a entender e explicar melhor os processos de tomada de decisões que alimentam os modelos de inteligência artificial (IA).
Os modelos de IA usam uma rede complexa de entradas, algoritmos, lógica, ciência de dados e outros processos para retornar insights. Quanto mais complexo o modelo, mais difícil pode ser para os seres humanos entenderem as etapas que levaram a seus insights, mesmo que esses seres humanos sejam aqueles que o projetaram e construíram. Um modelo interpretável é aquele cujas decisões podem ser facilmente compreendidas pelos usuários.
O uso da IA está se expandindo. Sistemas que utilizam grandes modelos de linguagem (LLMs) estão se tornando partes rotineiras do cotidiano, desde dispositivos domésticos inteligentes e detecção de fraudes de cartões de crédito até o amplo uso do ChatGPT e outras ferramentas de IA generativa. À medida que modelos altamente complexos (incluindo algoritmos de deep learning e redes neurais) se tornam mais comuns, a interpretabilidade da IA se torna mais importante.
Além disso, os sistemas de IA e os algoritmos de aprendizado de máquina são cada vez mais predominantes em saúde, finanças e outros setores que envolvem decisões críticas ou que alteram a vida. Com apostas tão altas, o público precisa ser capaz de confiar que os resultados são justos e confiáveis. Essa confiança depende da compreensão de como os sistemas de IA chegam às suas previsões e tomam suas decisões.
Os modelos de IA de caixa branca têm entradas e lógica fáceis de ver e entender. Por exemplo,decision trees básicas, que mostram um fluxo claro entre cada etapa, não são difíceis para uma pessoa comum decifrar. Os modelos de caixa branca tendem a usar sistemas de tomada de decisões mais lineares, que são fáceis de interpretar, mas podem resultar em menos precisão ou insights ou aplicações menos atraentes.
Os modelos de IA de caixa preta são mais complicados e oferecem menos transparência de seu funcionamento interno. O usuário geralmente não sabe como o modelo alcança seus resultados. Esses modelos mais complexos tendem a ser mais exatos e precisos. Mas, como são difíceis ou impossíveis de entender, trazem preocupações quanto à sua confiabilidade, imparcialidade, vieses e outras questões éticas. Tornar os modelos de caixa preta mais interpretáveis é uma maneira de criar confiança em seu uso.
A interpretabilidade da IA se concentra na compreensão do funcionamento interno de um modelo de IA, enquanto a explicabilidade da IA visa fornecer razões para as saídas do modelo.
A interpretabilidade tem a ver com transparência, permitindo que os usuários compreendam a arquitetura do modelo, as funcionalidades que ele utiliza e como os combina para fornecer previsões. Os processos de tomada de decisões de um modelo interpretável são facilmente entendidos por seres humanos. Maior interpretabilidade requer maior divulgação de suas operações internas.
A explicabilidade diz respeito à verificação ou ao fornecimento de justificativas para as saídas do modelo, geralmente depois que ele faz suas previsões. A IA explicável (XAI) é usada para identificar os fatores que levaram aos resultados. Vários métodos de explicabilidade podem ser usados para apresentar os modelos de forma a tornar seus processos complexos e a ciência de dados subjacente claros para um ser humano usando linguagem natural.
A interpretabilidade da IA ajuda a depurar modelos, detectar vieses, garantir conformidade com regulamentações e conquistar a confiança dos usuários. Ela permite que desenvolvedores e usuários vejam como seus modelos afetam pessoas e empresas e os desenvolvam de forma responsável.
A interpretabilidade é importante por vários motivos:
Sem interpretabilidade, os usuários ficam no escuro. Essa falta de responsabilidade pode minar a confiança do público na tecnologia. Quando os stakeholders entendem completamente como um modelo toma suas decisões, eles são mais propensos a aceitar suas saídas. A interpretabilidade do modelo permite transparência e clareza, o que faz com que os usuários se sintam confortáveis em confiar nele em aplicações do mundo real, como diagnósticos médicos ou decisões financeiras.
Vieses nos dados de treinamento podem ser amplificados pelos modelos de IA. Os resultados discriminatórios perpetuam as desigualdades sociais, mas também expõem as organizações a riscos legais e de reputação. Sistemas de IA interpretáveis podem ajudar a detectar se um modelo está tomando decisões tendenciosas com base em características protegidas, como raça, idade ou gênero. A interpretabilidade permite que os desenvolvedores de modelos identifiquem e mitiguem padrões discriminatórios, ajudando a garantir resultados mais justos.
O aprendizado de máquina interpretável permite que os criadores de algoritmos e modelos de ML identifiquem e corrijam erros. Nenhum modelo de aprendizado de máquina é 100% preciso desde o início. Sem entender o raciocínio da IA, a depuração é um processo ineficiente e arriscado. Ao entender como o modelo de ML funciona, desenvolvedores e cientistas de dados podem identificar as fontes de previsões incorretas e otimizar o desempenho do modelo. Esse processo, por sua vez, aumenta sua confiabilidade geral e auxilia na otimização.
Algumas regulamentações, como a Equal Credit Opportunity Act (ECOA) nos Estados Unidos ou o General Data Protection Regulation (GDPR) na União Europeia, exigem que as decisões tomadas por sistemas automatizados sejam transparentes e explicáveis. E um número crescente de regulamentações específicas de IA, incluindo a Lei de IA da UE da União Europeia, estão estabelecendo normas para o desenvolvimento e uso da IA. Modelos de IA interpretáveis podem fornecer explicações claras para suas decisões, ajudando a atender a esses requisitos regulatórios. A interpretabilidade também pode ajudar com questões de auditoria, responsabilidade e proteção de privacidade de dados .
Sem interpretabilidade, desenvolvedores e pesquisadores podem ter dificuldades para traduzir insights de IA em resultados praticáveis ou fazer a tecnologia progredir com mudanças. A interpretabilidade facilita a transferência de conhecimento sobre os fundamentos e decisões de um modelo entre os stakeholders e o uso desse conhecimento para informar o desenvolvimento de outros modelos.
Nigam Shah, pesquisadora da Stanford University, identifica três tipos principais de interpretabilidade: a interpretabilidade dos engenheiros, a interpretabilidade causal e a interpretabilidade induzida por confiança.1
Esse tipo se concentra em como os modelos de IA chegaram à sua saída. Envolve a compreensão do funcionamento interno do modelo e é relevante para desenvolvedores e pesquisadores que precisam depurar ou aprimorar o modelo.
Esse tipo se concentra no motivo pelo qual o modelo produziu sua saída. Envolve identificar os fatores que têm maior influência nas previsões do modelo e como as mudanças nesses fatores afetam os resultados.
Esse tipo se concentra em fornecer explicações que criem confiança nas saídas do modelo. Envolve a apresentação do processo de tomada de decisões do modelo de uma forma compreensível e identificável para os usuários, mesmo que eles não tenham conhecimento técnico.
Várias características influenciam a interpretabilidade dos modelos de IA:
A interpretabilidade intrínseca refere-se a modelos que são inerentemente interpretáveis, como decision trees e modelos de regressão. Suas estruturas simples são fáceis de entender. No entanto, a interpretabilidade post-hoc envolve a aplicação de métodos de interpretação a modelos pré-treinados para explicar seu comportamento. A interpretação post-hoc é melhor para modelos mais complexos ou de caixa preta.
A interpretabilidade local concentra-se na explicação de previsões individuais e ajuda a mostrar por que o modelo chegou a um determinado resultado. A interpretabilidade global visa entender o comportamento do modelo em todo o conjunto de dados, mostrando seus padrões e tendências gerais.
Os métodos de interpretabilidade específicos do modelo usam a estrutura interna de um modelo para fornecer explicações. Os métodos independentes do modelo funcionam com qualquer tipo de modelo.
Vários métodos podem estabelecer a interpretabilidade em modelos de IA.
Alguns modelos são simples o suficiente para interpretação intrínseca. Esses modelos inerentemente interpretáveis dependem de estruturas diretas, como decision trees, sistemas baseados em regras e regressão lineares. Os seres humanos podem entender facilmente os padrões e os processos de tomada de decisões dos modelos lineares.
Modelos mais complexos exigem interpretação post-hoc, na qual os métodos de interpretação são aplicados a modelos pré-treinados para explicar a saída do modelo. Alguns métodos comuns de interpretação post-hoc incluem:
O LIME ajuda a explicar as previsões de um modelo, concentrando-se em uma única previsão de cada vez. Ele faz isso criando um modelo mais simples e interpretável que imita o comportamento do modelo complexo para essa previsão específica. Ele usa a atribuição de funcionalidades para determinar a influência de uma característica específica (como forma, cor ou outro ponto de dados) na saída do modelo. Por exemplo, ele usa uma previsão específica e, em seguida, gera muitas instâncias semelhantes adaptando ou ajustando ligeiramente os valores das funcionalidades. A partir daí, ele cria um modelo mais simples e mais interpretável com base nesses valores de recursos "perturbados" e em seus resultados. Em suma, o LIME fornece uma explicação local simplificada de como o modelo complexo se comportaria.
O SHAP é uma abordagem cooperativa de estilo de teoria dos jogos para interpretabilidade que considera todas as combinações possíveis de funcionalidades e como afetam a previsão. Ele atribui um valor (chamado de valor de Shapley) a cada recurso com base em quanto contribui para a previsão em diferentes cenários. O SHAP pode funcionar com qualquer sistema de aprendizado de máquina. Ele oferece explicações locais para previsões individuais fornecidas por algoritmos de aprendizado de máquina e explicações globais para o modelo como um todo. No entanto, devido à sua complexidade computacional, o SHAP pode ser um método mais lento e caro.
Os PDPs mostram como uma funcionalidade afeta as previsões do modelo, em média, em todo o conjunto de dados. Eles ajudam a visualizar a relação entre uma funcionalidade e a saída do modelo, mantendo todas as outras características constantes. Esse método é útil para interpretar um pequeno número de funcionalidades ou quando os stakeholders querem se concentrar em um subconjunto específico de funcionalidades.
Os gráficos ICE mostram o quanto um resultado previsto depende de uma funcionalidade específica. Eles são semelhantes aos PDPs, mas mostram a relação entre uma funcionalidade e a saída do modelo para instâncias individuais, em vez da média em todo o conjunto de dados. Eles podem complementar PDPs ao fornecer uma visão mais detalhada do comportamento do modelo, por exemplo, destacando a variabilidade e mostrando interações entre as funcionalidades em um nível de instância, por exemplo. E são úteis quando pesquisadores de ciência da computação ou stakeholders desejam identificar valores discrepantes ou padrões incomuns nas operações do modelo.
A interpretabilidade da IA é importante em qualquer setor que use modelos de IA para tomar decisões que afetem os indivíduos ou a sociedade. Alguns setores nos quais a interpretabilidade da IA é relevante são:
Profissionais da área médica usam inteligência artificial para diagnóstico, recomendações de tratamento e pesquisa. A interpretabilidade pode ajudar médicos e pacientes a confiar e entender as decisões de um modelo de IA e identificar vieses ou erros em seu raciocínio.
Os profissionais definanças podem usar a IA para detectar fraudes, quantificar riscos, atribuir pontuações de crédito e fazer recomendações de investimentos. A interpretabilidade é essencial para a conformidade regulatória e auditoria no setor financeiro e bancário. E entender o processo de tomada de decisões de um modelo para atividades como aprovações de empréstimos e gerenciamento de riscos pode ajudar a evitar resultados tendenciosos.
O setor de justiça criminal pode usar a IA para analisar cenas de crimes, DNA e evidências forenses e padrões de crimes locais ou nacionais. Os usuários também podem recorrer à IA para oferecer recomendações de sentenças e realizar outras operações judiciais de rotina. A interpretabilidade é crítica para garantir a imparcialidade, a precisão e a responsabilidade.
Alguns departamentos de recursos humanos usam a IA para triagem de currículos e avaliação de candidatos. A interpretabilidade é uma forma de prevenir a discriminação no processo inicial de contratação.
O setor de seguros utiliza a inteligência artificial para avaliar riscos, processar sinistros de seguros e definir preços. A interpretabilidade pode ajudar os clientes a entender seus prêmios e as seguradoras, a justificar suas decisões.
À medida que mais funções de marketing, vendas e atendimento ao cliente dependem de chatbots impulsionados por IA, a interpretabilidade pode oferecer proteções importantes. Entender por que um chatbot faz uma recomendação ou decisão cria confiança no sistema de IA e ajuda a melhorar ou personalizar suas ofertas.
A interpretabilidade traz alguns desafios e limitações.
Frequentemente, há uma compensação entre o desempenho e a interpretabilidade do modelo. Modelos mais simples ou de caixa branca são mais interpretáveis, mas podem ter menor precisão em comparação com modelos complexos de caixa preta, como redes neurais profundas.
A interpretabilidade também sofre com a falta de padronização. Diferentes métodos podem fornecer diferentes explicações para o mesmo modelo, tornando difícil compará-los e validá-los sem frameworks formais. E a interpretabilidade é frequentemente subjetiva. O que pode ser considerado fácil de entender para um usuário pode não ser suficiente para outro.
Alguns especialistas dizem que a interpretabilidade não é necessária em alguns casos ou pode ser contraproducente em outros. Se o modelo for privado ou não tiver impacto significativo, ou se o problema já for objeto de um estudo muito aceito, uma maior interpretabilidade pode ser redundante ou desnecessária. Em alguns casos, uma maior interpretabilidade pode apresentar preocupações de segurança, pois mais transparência pode permitir que agentes mal-intencionados explorem um sistema ou pode permitir que usuários manipulem o sistema de uma forma que prejudique sua eficácia.
Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM® watsonx.governance.
Veja como a governança de IA pode ajudar a aumentar a confiança dos seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.
Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM® Consulting.
1 Miller, Katharine. Should AI models be explainable? That depends. Stanford Institute for Human-Centered Artificial Intelligence. Março de 2021.