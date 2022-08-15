Às vezes, como cientistas de dados, muitas vezes estamos tão determinados a construir um modelo perfeito que podemos incluir, sem querer, o viés humano em nossos modelos. Muitas vezes, o viés se infiltra nos dados de treinamento e, em seguida, é amplificado e incorporado no modelo. Se esse modelo entrar em um ciclo de produção, ele pode ter algumas implicações sérias direcionadas por viés, como previsões falsas de pontuação de crédito ou exame de integridade. Em várias indústrias, os requisitos regulatórios para imparcialidade de modelos e IA confiável visam impedir que modelos com viés entrem nos ciclos de produção.
Para ser um cientista de dados responsável, há duas considerações importantes ao criar um pipeline de modelo:
Detectar e definir viés e imparcialidade não é fácil. Para ajudar os cientistas de dados a refletir e identificar possíveis preocupações éticas, o processo padrão de mineração de dados deve incluir 3 etapas adicionais: avaliação do risco dos dados, avaliação do risco do modelo e monitoramento da produção.
Esta etapa permite que um cientista de dados avalie se há algum desequilíbrio entre diferentes grupos de pessoas em relação à variável-alvo. Por exemplo, ainda observamos que os homens são aceitos em cargos gerenciais com mais frequência do que as mulheres. Mas todos sabemos que é ilegal oferecer um emprego com base no gênero, então, para equilibrar o modelo, você poderia argumentar que o gênero não deveria importar e poderia ser removido. Mas o que mais você poderia impactar removendo o gênero? Antes de agir, esta etapa deve ser examinada com os especialistas certos para determinar se as verificações atuais são suficientes para mitigar o possível viés do modelo.
O objetivo de balancear os dados é imitar a distribuição dos dados usados na produção — isso é garantir que os dados de treinamento estejam o mais próximo possível dos dados usados em tempo real no ambiente de produção. Assim, embora a reação inicial seja eliminar a variável viés, é improvável que essa abordagem resolva o problema. Muitas vezes, as variáveis estão correlacionadas e o viés pode se infiltrar por meio de um dos campos correlacionados, atuando como um substituto no modelo. Portanto, todas as correlações devem ser rastreadas antes da remoção do viés para garantir que ele seja realmente eliminado.
As previsões de modelos têm implicações imediatas e sérias — na verdade, elas podem mudar completamente a vida de alguém. Se um modelo previu que você tem um score de crédito baixo, isso pode afetar tudo na sua vida, enquanto você luta para conseguir cartões de crédito e empréstimos, encontrar moradia e conseguir taxas de juros razoáveis. Além disso, se você não entender uma razão por trás da pontuação baixa, não haverá oportunidade de melhoria.
O trabalho do cientista de dados é garantir que um modelo forneça o resultado mais justo para todos. Se os dados contiverem viés, o modelo aprenderá com esse viés e fará previsões injustas. Os modelos de caixa-preta fornecem ótimos resultados, mas com pouca interpretabilidade e explicabilidade, tornando impossível verificar se há alguma bandeira vermelha para garantir a imparcialidade. Portanto, é necessário um mergulho profundo nos resultados do modelo. O cientista de dados precisa avaliar o compromisso entre interpretabilidade versus desempenho do modelo e selecionar os modelos que melhor atendam a ambos os requisitos.
Depois que um modelo é desenvolvido por cientistas de dados, ele geralmente é entregue à equipe de MLOps. Quando os dados do novo modelo são colocados em produção, eles podem trazer uma nova possibilidade de viés ou aumentar o viés que antes era negligenciado sem o monitoramento adequado. Os dados de produção podem levar a desvios no desempenho ou na consistência e infundir vieses no modelo e nos dados. É muito importante monitorar os modelos, introduzindo alertas adequados que indicam a deterioração do desempenho do modelo e um mecanismo para decidir quando desativar um modelo que não está mais apto para uso usando uma ferramenta como o IBM Watson Studio. Novamente, a qualidade de dados deve ser rastreada comparando a distribuição dos dados de produção com os dados usados para treinar o modelo.
A ciência de dados responsável significa pensar no modelo além do código e do desempenho, e isso é extremamente afetado pelos dados com os quais você está trabalhando e pela confiabilidade deles. Em última análise, mitigar o viés é um processo delicado, mas crucial, que ajuda a garantir que os modelos sigam os processos humanos corretos. Isso não significa que você precise fazer algo novo, mas é importante repensar e reformular o que nós, como cientistas de dados, já fazemos para garantir que seja feito de forma responsável.
