04 de outubro de 2024
O viés de dados ocorre quando os vieses presentes nos conjuntos de dados de treinamento e ajuste fino dos modelos de inteligência artificial (IA) afetam negativamente o comportamento do modelo.
Os modelos de IA são programas treinados com conjuntos de dados para reconhecer certos padrões ou tomar certas decisões. Eles aplicam algoritmos diferentes a entradas de dados relevantes para atingir as tarefas ou saída para as quais foram programados.
Treinar um modelo de IA com dados enviesados, como viés histórico ou representacional, pode resultar em saídas enviesadas ou distorcidas, que podem representar de forma injusta ou discriminar certos grupos ou indivíduos. Esses impactos minam a confiança na IA e nas organizações que utilizam a IA. Também podem levar a penalidades legais e regulatórias para as empresas.
O viés de dados é uma consideração importante para setores de alto risco, como saúde, recursos humanos e finanças, que usam cada vez mais a IA para ajudar a informar a tomada de decisões. As organizações podem atenuar o viés de dados ao compreender os diferentes tipos de vieses de dados e como eles ocorrem e ao identificar, reduzir e gerenciar esses vieses em todo o ciclo de vida da IA.
O viés de dados pode levar a sistemas de IA injustos, imprecisos e não confiáveis, resultando em sérias consequências para indivíduos, empresas e sociedade. Alguns riscos do viés de dados incluem:
O viés de dados em sistemas de IA pode perpetuar preconceitos sociais existentes, levando a um tratamento injusto com base em características como gênero, idade, raça ou etnia. Grupos marginalizados podem ser sub-representados ou excluídos dos dados, resultando em decisões que não lidam com as necessidades da população real.
Por exemplo, um algoritmo de contratação treinado principalmente com dados de uma força de trabalho homogênea e masculina pode favorecer candidatos do sexo masculino, enquanto prejudica candidatas qualificadas, perpetuando a desigualdade de gênero no ambiente de trabalho.
Os modelos de IA treinados com dados distorcidos podem produzir resultados incorretos, o que pode fazer com que as organizações tomem decisões ruins ou proponham soluções ineficazes. Por exemplo, empresas que usam análise preditiva de dados tendenciosa podem interpretar mal as tendências do mercado, resultando em lançamentos de produtos ruins ou na alocação incorreta de recursos.
O viés de dados pode colocar as organizações em risco de escrutínio regulatório, não conformidade legal e multas substanciais. Por exemplo, de acordo com a Lei de IA da UE, o não cumprimento das práticas proibidas de IA pode significar multas de até EUR 35 milhões ou 7% do faturamento anual mundial, o que for maior.
As organizações que violam as leis locais e regionais também podem ver uma erosão da reputação e da confiança do cliente. Considere uma empresa de varejo considerada culpada de discriminação por usar um modelo de preços impulsionado por IA que cobrava preços mais altos para determinados grupos demográficos. Essa situação pode resultar em uma crise de relações públicas que prejudica a imagem da marca da empresa e a fidelidade do cliente.
O viés de dados pode minar a confiança em sistemas de IA. Casos graves ou repetidos de decisões com viés ou imprecisas orientadas por IA podem levar indivíduos e comunidades a questionar a integridade da organização que implementa a IA. As pessoas também podem ficar cada vez mais céticas em relação à confiabilidade e à justiça da IA como um todo, levando a uma relutância mais ampla em adotar a tecnologia.
Sistemas de IA que usam resultados tendenciosos como dados de entrada para a tomada de decisões criam um ciclo de feedback que também pode reforçar vieses ao longo do tempo. Esse ciclo, em que o algoritmo aprende e perpetua continuamente os mesmos padrões tendenciosos, leva a resultados cada vez mais distorcidos.
Por exemplo, a discriminação histórica como o redlining (serviços financeiros sendo negados a pessoas com base em sua raça) pode ser refletida em dados de treinamento para um modelo de IA encarregado da tomada de decisões de empréstimos bancários. À medida que um sistema de IA processa as solicitações usando esses dados, ele pode penalizar injustamente indivíduos que compartilham características socioeconômicas com vítimas de redlining no passado. Os dados dessas rejeições de empréstimos mais recentes podem informar a tomada de decisões de IA futuras, levando a um ciclo no qual membros de grupos sub-representados continuam recebendo menos oportunidades de crédito.
O viés de dados, o viés da IA e o viés algorítmico podem resultar em saídas distorcidas e resultados potencialmente prejudiciais, mas existem diferenças sutis entre esses termos.
O viés da IA, também chamado de viés do aprendizado de máquina, é um termo genérico para os diferentes tipos de vieses associado aos sistemas de inteligência artificial. Refere-se à ocorrência de resultados com viés devido a vieses humanos que distorcem os dados de treinamento originais ou o algoritmo de IA.
O viés algorítmico é um subconjunto do viés da IA que ocorre quando erros sistêmicos em algoritmos de aprendizado de máquina produzem resultados injustos ou discriminatórios. O viés algorítmico não é causado pelo algoritmo em si, mas pela maneira como os desenvolvedores coletam e codificam os dados de treinamento.
O viés de dados também se enquadra no viés da IA e pode ser uma das causas do viés algorítmico. O viés de dados refere-se especificamente à natureza distorcida ou não representativa dos dados usados para treinar um modelo de IA.
Entender e lidar com os diferentes tipos de vieses pode ajudar a criar sistemas de IA precisos e confiáveis. Alguns tipos comuns de vieses de dados incluem:
As pessoas são inevitavelmente influenciadas por suas experiências e preferências quando processam informações e tomam decisões. Como resultado, as pessoas podem incorporar esses vieses aos sistemas de IA por meio da seleção dos dados ou da forma como os dados são ponderados. O viés cognitivo pode levar a erros sistemáticos, como preferir conjuntos de dados coletados entre americanos em vez de amostrar uma variedade de populações em todo o mundo.
O viés de automação ocorre quando os usuários confiam demais em tecnologias automatizadas, levando à aceitação não crítica de suas saídas, o que pode perpetuar e amplificar vieses de dados existentes. Por exemplo, no setor de saúde, um médico pode depender fortemente de uma ferramenta de diagnóstico de IA para sugerir planos de tratamento para os pacientes. Ao não verificar os resultados da ferramenta em relação à sua própria experiência clínica, o médico pode diagnosticar incorretamente um paciente caso a decisão da ferramenta seja baseada em dados tendenciosos.
O viés de confirmação ocorre quando os dados são incluídos seletivamente para confirmar crenças ou hipóteses preexistentes. Por exemplo, o viés de confirmação ocorre no policiamento preditivo quando a polícia concentra a coleta de dados em bairros com taxas de crime historicamente altas. Isso resulta no policiamento excessivo desses bairros, devido à inclusão seletiva de dados que corroboram as suposições existentes sobre a área.
O viés de exclusão acontece quando dados importantes são deixados de fora dos conjuntos de dados. Nas previsões econômicas, a exclusão sistemática de dados de áreas de baixa renda resulta em conjuntos de dados que representam com precisão a população, levando a previsões econômicas que favorecem as áreas mais ricas.
O viés histórico, também conhecido como viés temporal, ocorre quando os dados refletem desigualdades ou vieses históricos que existiam durante a coleta de dados, em oposição ao contexto atual. Exemplos de viés de dados nessa categoria incluem sistemas de contratação de IA treinados com dados históricos de emprego. Nesses conjuntos de dados, as pessoas de cor podem estar sub-representadas em empregos de alto nível, e o modelo pode perpetuar a desigualdade.
O viés implícito ocorre quando suposições das pessoas baseadas em experiências pessoais, em vez de dados mais gerais, são introduzidas na criação ou testes de ML. Por exemplo, um sistema de IA treinado para avaliar candidatos a emprego pode priorizar currículos com linguagem codificada masculina, refletindo o viés inconsciente do desenvolvedor, mesmo que o gênero não seja um fator explícito no modelo.
O viés de medição pode ocorrer quando a precisão ou qualidade dos dados difere entre os grupos ou quando as principais variáveis do estudo são medidas ou classificadas de forma imprecisa. Por exemplo, um modelo de admissão em faculdades que usa GPAs altos como principal fator de aceitação não considera que notas mais altas podem ser mais fáceis de alcançar em certas escolas do que em outras. Um aluno com um GPA mais baixo, mas uma carga de cursos mais desafiadora em uma escola, pode ser um candidato mais capaz do que um aluno com um GPA mais alto, mas uma carga de cursos menos desafiadora em outra escola. Dada sua ênfase em GPAs, o modelo pode não levar em conta essa possibilidade em seus processos de tomada de decisões.
O viés de relato ocorre quando a frequência de eventos ou resultados no conjunto de dados não é representativa da frequência real. Esse viés geralmente ocorre quando seres humanos estão envolvidos na seleção de dados, pois as pessoas são mais propensas a documentar evidências que parecem importantes ou memoráveis.
Por exemplo, um modelo de análise de sentimentos é treinado para prever se os produtos em um grande site de comércio eletrônico são classificados de forma positiva ou negativa. A maioria das avaliações de produtos semelhantes no conjunto de dados de treinamento reflete opiniões extremas, porque é menos provável que as pessoas deixem uma avaliação se não responderem a ela de forma veemente, tornando as previsões do modelo menos precisas.
O viés de seleção acontece quando o conjunto de dados usado para treinamento não é representativo o suficiente, não é grande o suficiente ou muito incompleto para treinar suficientemente o sistema. Por exemplo, treinar um carro autônomo com dados de direção diurna não é representativo de toda a gama de cenários de direção que o veículo pode encontrar no mundo real.
O viés de amostragem é um tipo de viés de seleção que ocorre quando os dados da amostra são coletados de forma que algumas informações tenham maior probabilidade de serem incluídas do que outras informações, sem a randomização adequada. Por exemplo, se um sistema de IA médica projetado para prever o risco de doenças cardíacas foi treinado apenas com dados de pacientes do sexo masculino de meia-idade, ele pode fornecer previsões imprecisas. Esse sistema afetaria especialmente mulheres e pessoas de outras faixas etárias.
Mitigar o viés dentro da IA começa com a governança de IA. A governança de IA refere-se às diretrizes que atuam para garantir que as ferramentas e os sistemas de IA sejam e permaneçam seguros e éticos. Práticas de IA responsável, que enfatizam transparência, responsabilidade e considerações éticas, podem orientar as organizações ao lidar com as complexidades da mitigação do viés.
Para mitigar o viés de dados, as organizações devem implementar estratégias e práticas robustas destinadas a identificar, reduzir e gerenciar o viés em toda a coleta e análise de dados, como, por exemplo:
A ampla representação nas fontes de dados ajuda a reduzir o viés. O processo de coleta de dados deve abranger uma ampla gama de dados demográficos, contextos e condições adequadamente representados. Por exemplo, se os dados coletados para ferramentas de reconhecimento facial incluírem predominantemente imagens de indivíduos brancos, o modelo pode não reconhecer ou diferenciar rostos negro com precisão.
As auditorias de vieses permitem que as organizações avaliem regularmente seus dados e algoritmos em busca de vieses potenciais, avaliando os resultados e examinando as fontes de dados em busca de indicadores de tratamento injusto entre diferentes grupos demográficos. O monitoramento contínuo do desempenho em vários grupos demográficos ajuda a detectar e lidar com discrepâncias nos resultados, ajudando a garantir que qualquer viés presente seja identificado e removido em tempo hábil.
Documentar métodos de coleta de dados e como os algoritmos tomam decisões aumenta a transparência, especialmente em relação à forma como se identifica e lida com vieses potenciais. Políticas de dados abertos podem facilitar a avaliação e crítica externas, promovendo a responsabilidade na coleta e análise de dados, o que é essencial para promover a confiança em sistemas de IA.
O uso de ferramentas e frameworks de imparcialidade algorítmica pode ajudar na detecção e mitigação de vieses nos modelos de aprendizado de máquina. O IA Fairness 360, um toolkit de código aberto desenvolvido pela IBM, fornece várias métricas para detectar vieses em conjuntos de dados e modelos de aprendizado de máquina, juntamente com algoritmos para mitigar vieses e promover a imparcialidade. Implementar métodos estatísticos para avaliar a imparcialidade das previsões em diferentes grupos demográficos pode melhorar ainda mais a objetividade.
Promover a diversidade nas equipes de ciência de dados e análise de dados introduz várias perspectivas e pode reduzir o risco de viés. Equipes diversificadas têm maior probabilidade de reconhecer e lidar com possíveis vieses em conjuntos de dados e algoritmos, porque se baseiam em uma gama mais ampla de experiências e pontos de vista. Por exemplo, uma equipe que inclui membros de diferentes origens raciais, de gênero e socioeconômicas pode identificar melhor as áreas em que os dados podem deturpar ou ignorar certos grupos de pessoas.
Dados sintéticos são dados gerados artificialmente, criados por meio de simulação de computador ou algoritmos para substituir os pontos de dados coletados de eventos do mundo real. Os cientistas de dados geralmente consideram os dados sintéticos uma alternativa benéfica quando os dados não estão prontamente disponíveis e porque oferecem mais proteção de privacidade de dados. Os dados sintéticos mitigam o viés, permitindo a criação intencional de conjuntos de dados equilibrados, que incluem grupos e cenários sub-representados para ajudar a garantir resultados mais equitativos do modelo.
Saiba como a Lei de IA da União Europeia afetará as empresas, como se preparar, como você pode mitigar os riscos e como equilibrar regulamentação e inovação.
Conheça os novos desafios da IA generativa, a necessidade de governar modelos de IA e ML e as etapas para criar um framework de IA confiável, transparente e explicável.
Leia sobre a condução de práticas éticas e de conformidade com um portfólio de produtos de IA para modelos de IA generativa.
Adquira uma compreensão mais profunda de como garantir a imparcialidade, gerenciar desvios, manter a qualidade e aprimorar a explicabilidade com o watsonx.governance.
Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.
Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM Consulting.
Simplifique a forma como você gerencia os riscos e a conformidade regulatória com uma plataforma de GRC unificada.