O que é viés de dados?

04 de outubro de 2024

 

Autores

Julie Rogers

Staff Writer

Alexandra Jonker

Editorial Content Lead

O que é viés de dados?

O viés de dados ocorre quando os vieses presentes nos conjuntos de dados de treinamento e ajuste fino dos modelos de inteligência artificial (IA) afetam negativamente o comportamento do modelo.

Os modelos de IA são programas treinados com conjuntos de dados para reconhecer certos padrões ou tomar certas decisões. Eles aplicam algoritmos diferentes a entradas de dados relevantes para atingir as tarefas ou saída para as quais foram programados.

Treinar um modelo de IA com dados enviesados, como viés histórico ou representacional, pode resultar em saídas enviesadas ou distorcidas, que podem representar de forma injusta ou discriminar certos grupos ou indivíduos. Esses impactos minam a confiança na IA e nas organizações que utilizam a IA. Também podem levar a penalidades legais e regulatórias para as empresas.

O viés de dados é uma consideração importante para setores de alto risco, como saúde, recursos humanos e finanças, que usam cada vez mais a IA para ajudar a informar a tomada de decisões. As organizações podem atenuar o viés de dados ao compreender os diferentes tipos de vieses de dados e como eles ocorrem e ao identificar, reduzir e gerenciar esses vieses em todo o ciclo de vida da IA.

Quais são os riscos do viés de dados?

O viés de dados pode levar a sistemas de IA injustos, imprecisos e não confiáveis, resultando em sérias consequências para indivíduos, empresas e sociedade. Alguns riscos do viés de dados incluem:

Discriminação e desigualdade

O viés de dados em sistemas de IA pode perpetuar preconceitos sociais existentes, levando a um tratamento injusto com base em características como gênero, idade, raça ou etnia. Grupos marginalizados podem ser sub-representados ou excluídos dos dados, resultando em decisões que não lidam com as necessidades da população real.

Por exemplo, um algoritmo de contratação treinado principalmente com dados de uma força de trabalho homogênea e masculina pode favorecer candidatos do sexo masculino, enquanto prejudica candidatas qualificadas, perpetuando a desigualdade de gênero no ambiente de trabalho.

Previsões e decisões imprecisas

Os modelos de IA treinados com dados distorcidos podem produzir resultados incorretos, o que pode fazer com que as organizações tomem decisões ruins ou proponham soluções ineficazes. Por exemplo, empresas que usam análise preditiva de dados tendenciosa podem interpretar mal as tendências do mercado, resultando em lançamentos de produtos ruins ou na alocação incorreta de recursos.

Consequências legais e éticas

O viés de dados pode colocar as organizações em risco de escrutínio regulatório, não conformidade legal e multas substanciais. Por exemplo, de acordo com a Lei de IA da UE, o não cumprimento das práticas proibidas de IA pode significar multas de até EUR 35 milhões ou 7% do faturamento anual mundial, o que for maior.

As organizações que violam as leis locais e regionais também podem ver uma erosão da reputação e da confiança do cliente. Considere uma empresa de varejo considerada culpada de discriminação por usar um modelo de preços impulsionado por IA que cobrava preços mais altos para determinados grupos demográficos. Essa situação pode resultar em uma crise de relações públicas que prejudica a imagem da marca da empresa e a fidelidade do cliente.

Perda de confiança

O viés de dados pode minar a confiança em sistemas de IA. Casos graves ou repetidos de decisões com viés ou imprecisas orientadas por IA podem levar indivíduos e comunidades a questionar a integridade da organização que implementa a IA. As pessoas também podem ficar cada vez mais céticas em relação à confiabilidade e à justiça da IA como um todo, levando a uma relutância mais ampla em adotar a tecnologia.

Ciclos de feedback

Sistemas de IA que usam resultados tendenciosos como dados de entrada para a tomada de decisões criam um ciclo de feedback que também pode reforçar vieses ao longo do tempo. Esse ciclo, em que o algoritmo aprende e perpetua continuamente os mesmos padrões tendenciosos, leva a resultados cada vez mais distorcidos.

Por exemplo, a discriminação histórica como o redlining (serviços financeiros sendo negados a pessoas com base em sua raça) pode ser refletida em dados de treinamento para um modelo de IA encarregado da tomada de decisões de empréstimos bancários. À medida que um sistema de IA processa as solicitações usando esses dados, ele pode penalizar injustamente indivíduos que compartilham características socioeconômicas com vítimas de redlining no passado. Os dados dessas rejeições de empréstimos mais recentes podem informar a tomada de decisões de IA futuras, levando a um ciclo no qual membros de grupos sub-representados continuam recebendo menos oportunidades de crédito.

Viés da IA versus viés algorítmico versus viés de dados

O viés de dados, o viés da IA e o viés algorítmico podem resultar em saídas distorcidas e resultados potencialmente prejudiciais, mas existem diferenças sutis entre esses termos.

preconceito de ia

O viés da IA, também chamado de viés do aprendizado de máquina, é um termo genérico para os diferentes tipos de vieses associado aos sistemas de inteligência artificial. Refere-se à ocorrência de resultados com viés devido a vieses humanos que distorcem os dados de treinamento originais ou o algoritmo de IA.

Viés algorítmico

O viés algorítmico é um subconjunto do viés da IA que ocorre quando erros sistêmicos em algoritmos de aprendizado de máquina produzem resultados injustos ou discriminatórios. O viés algorítmico não é causado pelo algoritmo em si, mas pela maneira como os desenvolvedores coletam e codificam os dados de treinamento.

Viés de dados

O viés de dados também se enquadra no viés da IA e pode ser uma das causas do viés algorítmico. O viés de dados refere-se especificamente à natureza distorcida ou não representativa dos dados usados para treinar um modelo de IA.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Informações e notícias selecionadas por especialistas sobre IA, nuvem e muito mais no boletim informativo semanal Think. 

Quais são os diferentes tipos de vieses de dados?

Entender e lidar com os diferentes tipos de vieses pode ajudar a criar sistemas de IA precisos e confiáveis. Alguns tipos comuns de vieses de dados incluem:

  • Viés cognitivo
  • Viés de automação
  • Viés de confirmação
  • Viés de exclusão
  • Viés histórico (temporal)
  • Viés implícito
  • Viés de medição
  • Viés de geração de relatórios
  • Viés de seleção
  • Viés de amostragem

Viés cognitivo

As pessoas são inevitavelmente influenciadas por suas experiências e preferências quando processam informações e tomam decisões. Como resultado, as pessoas podem incorporar esses vieses aos sistemas de IA por meio da seleção dos dados ou da forma como os dados são ponderados. O viés cognitivo pode levar a erros sistemáticos, como preferir conjuntos de dados coletados entre americanos em vez de amostrar uma variedade de populações em todo o mundo.

Viés de automação

O viés de automação ocorre quando os usuários confiam demais em tecnologias automatizadas, levando à aceitação não crítica de suas saídas, o que pode perpetuar e amplificar vieses de dados existentes. Por exemplo, no setor de saúde, um médico pode depender fortemente de uma ferramenta de diagnóstico de IA para sugerir planos de tratamento para os pacientes. Ao não verificar os resultados da ferramenta em relação à sua própria experiência clínica, o médico pode diagnosticar incorretamente um paciente caso a decisão da ferramenta seja baseada em dados tendenciosos.

Viés de confirmação

O viés de confirmação ocorre quando os dados são incluídos seletivamente para confirmar crenças ou hipóteses preexistentes. Por exemplo, o viés de confirmação ocorre no policiamento preditivo quando a polícia concentra a coleta de dados em bairros com taxas de crime historicamente altas. Isso resulta no policiamento excessivo desses bairros, devido à inclusão seletiva de dados que corroboram as suposições existentes sobre a área.

Viés de exclusão

O viés de exclusão acontece quando dados importantes são deixados de fora dos conjuntos de dados. Nas previsões econômicas, a exclusão sistemática de dados de áreas de baixa renda resulta em conjuntos de dados que representam com precisão a população, levando a previsões econômicas que favorecem as áreas mais ricas.

Viés histórico (temporal)

O viés histórico, também conhecido como viés temporal, ocorre quando os dados refletem desigualdades ou vieses históricos que existiam durante a coleta de dados, em oposição ao contexto atual. Exemplos de viés de dados nessa categoria incluem sistemas de contratação de IA treinados com dados históricos de emprego. Nesses conjuntos de dados, as pessoas de cor podem estar sub-representadas em empregos de alto nível, e o modelo pode perpetuar a desigualdade.

Viés implícito

O viés implícito ocorre quando suposições das pessoas baseadas em experiências pessoais, em vez de dados mais gerais, são introduzidas na criação ou testes de ML. Por exemplo, um sistema de IA treinado para avaliar candidatos a emprego pode priorizar currículos com linguagem codificada masculina, refletindo o viés inconsciente do desenvolvedor, mesmo que o gênero não seja um fator explícito no modelo.

Viés de medição

O viés de medição pode ocorrer quando a precisão ou qualidade dos dados difere entre os grupos ou quando as principais variáveis do estudo são medidas ou classificadas de forma imprecisa. Por exemplo, um modelo de admissão em faculdades que usa GPAs altos como principal fator de aceitação não considera que notas mais altas podem ser mais fáceis de alcançar em certas escolas do que em outras. Um aluno com um GPA mais baixo, mas uma carga de cursos mais desafiadora em uma escola, pode ser um candidato mais capaz do que um aluno com um GPA mais alto, mas uma carga de cursos menos desafiadora em outra escola. Dada sua ênfase em GPAs, o modelo pode não levar em conta essa possibilidade em seus processos de tomada de decisões.

Viés de geração de relatórios

O viés de relato ocorre quando a frequência de eventos ou resultados no conjunto de dados não é representativa da frequência real. Esse viés geralmente ocorre quando seres humanos estão envolvidos na seleção de dados, pois as pessoas são mais propensas a documentar evidências que parecem importantes ou memoráveis.

Por exemplo, um modelo de análise de sentimentos é treinado para prever se os produtos em um grande site de comércio eletrônico são classificados de forma positiva ou negativa. A maioria das avaliações de produtos semelhantes no conjunto de dados de treinamento reflete opiniões extremas, porque é menos provável que as pessoas deixem uma avaliação se não responderem a ela de forma veemente, tornando as previsões do modelo menos precisas.

Viés de seleção

O viés de seleção acontece quando o conjunto de dados usado para treinamento não é representativo o suficiente, não é grande o suficiente ou muito incompleto para treinar suficientemente o sistema. Por exemplo, treinar um carro autônomo com dados de direção diurna não é representativo de toda a gama de cenários de direção que o veículo pode encontrar no mundo real.

Viés de amostragem

O viés de amostragem é um tipo de viés de seleção que ocorre quando os dados da amostra são coletados de forma que algumas informações tenham maior probabilidade de serem incluídas do que outras informações, sem a randomização adequada. Por exemplo, se um sistema de IA médica projetado para prever o risco de doenças cardíacas foi treinado apenas com dados de pacientes do sexo masculino de meia-idade, ele pode fornecer previsões imprecisas. Esse sistema afetaria especialmente mulheres e pessoas de outras faixas etárias.

Mitigação do viés de dados

Mitigar o viés dentro da IA começa com a governança de IA. A governança de IA refere-se às diretrizes que atuam para garantir que as ferramentas e os sistemas de IA sejam e permaneçam seguros e éticos. Práticas de IA responsável, que enfatizam transparência, responsabilidade e considerações éticas, podem orientar as organizações ao lidar com as complexidades da mitigação do viés.

Para mitigar o viés de dados, as organizações devem implementar estratégias e práticas robustas destinadas a identificar, reduzir e gerenciar o viés em toda a coleta e análise de dados, como, por exemplo:

  • Coleta de dados representativos
  • Auditorias e avaliações
  • Transparência
  • Ferramentas de detecção de viés
  • Equipes inclusivas
  • Dados sintéticos

Coleta de dados representativos

A ampla representação nas fontes de dados ajuda a reduzir o viés. O processo de coleta de dados deve abranger uma ampla gama de dados demográficos, contextos e condições adequadamente representados. Por exemplo, se os dados coletados para ferramentas de reconhecimento facial incluírem predominantemente imagens de indivíduos brancos, o modelo pode não reconhecer ou diferenciar rostos negro com precisão.

Auditorias e avaliações

As auditorias de vieses permitem que as organizações avaliem regularmente seus dados e algoritmos em busca de vieses potenciais, avaliando os resultados e examinando as fontes de dados em busca de indicadores de tratamento injusto entre diferentes grupos demográficos. O monitoramento contínuo do desempenho em vários grupos demográficos ajuda a detectar e lidar com discrepâncias nos resultados, ajudando a garantir que qualquer viés presente seja identificado e removido em tempo hábil.

Transparência

Documentar métodos de coleta de dados e como os algoritmos tomam decisões aumenta a transparência, especialmente em relação à forma como se identifica e lida com vieses potenciais. Políticas de dados abertos podem facilitar a avaliação e crítica externas, promovendo a responsabilidade na coleta e análise de dados, o que é essencial para promover a confiança em sistemas de IA.

Ferramentas de detecção de viés

O uso de ferramentas e frameworks de imparcialidade algorítmica pode ajudar na detecção e mitigação de vieses nos modelos de aprendizado de máquina. O IA Fairness 360, um toolkit de código aberto desenvolvido pela IBM, fornece várias métricas para detectar vieses em conjuntos de dados e modelos de aprendizado de máquina, juntamente com algoritmos para mitigar vieses e promover a imparcialidade. Implementar métodos estatísticos para avaliar a imparcialidade das previsões em diferentes grupos demográficos pode melhorar ainda mais a objetividade.

Equipes inclusivas

Promover a diversidade nas equipes de ciência de dados e análise de dados introduz várias perspectivas e pode reduzir o risco de viés. Equipes diversificadas têm maior probabilidade de reconhecer e lidar com possíveis vieses em conjuntos de dados e algoritmos, porque se baseiam em uma gama mais ampla de experiências e pontos de vista. Por exemplo, uma equipe que inclui membros de diferentes origens raciais, de gênero e socioeconômicas pode identificar melhor as áreas em que os dados podem deturpar ou ignorar certos grupos de pessoas.

Dados sintéticos

Dados sintéticos são dados gerados artificialmente, criados por meio de simulação de computador ou algoritmos para substituir os pontos de dados coletados de eventos do mundo real. Os cientistas de dados geralmente consideram os dados sintéticos uma alternativa benéfica quando os dados não estão prontamente disponíveis e porque oferecem mais proteção de privacidade de dados. Os dados sintéticos mitigam o viés, permitindo a criação intencional de conjuntos de dados equilibrados, que incluem grupos e cenários sub-representados para ajudar a garantir resultados mais equitativos do modelo.

Soluções relacionadas
IBM watsonx.governance™

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.

Descubra o watsonx.governance
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM Consulting.

Explore os serviços de governança de IA
IBM OpenPages

Simplifique a forma como você gerencia os riscos e a conformidade regulatória com uma plataforma de GRC unificada.

Explore o OpenPages
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real