Quando os sistemas de IA se tornam descontrolados, os resultados não são bons. Informações confidenciais vazadas, mensagens ofensivas e, em um caso, uma receita amigável para usuários de gás cloro letal, foram todas atribuídas a chatbots descontrolados.1
Esses exemplos aumentaram a ênfase no alinhamento de IA, que consiste na prática de incorporar valores humanos e princípios éticos em modelos de IA. Mas os pesquisadores de IA não estão parando em lidar com as implicações éticas das tecnologias de aprendizado de máquina atuais. Eles também estão trabalhando para resolver as questões éticas do amanhã, em particular, aquelas colocadas pela inteligência artificial agêntica.
Conhecida também como agentes de IA, a IA agêntica é uma tecnologia autônoma de IA que traz um conjunto ampliado de dilemas éticos em relação aos modelos tradicionais de IA, afirma Kush Varshney, um IBM Fellow da IBM Research.
“Como os agentes de IA podem atuar sem a sua supervisão, existem muitos problemas adicionais de confiança,” diz Varshney. “Haverá uma evolução em termos de recursos, mas também em consequências não intencionais. Do ponto de vista da segurança, você não quer esperar para começar a trabalhar nisso. Você quer continuar aprimorando as medidas de segurança enquanto a tecnologia está sendo desenvolvida.”
Antes de explorar as proteções dos agentes de IA, é essencial entender exatamente o que são os agentes de IA: sistemas inteligentes ou programas que podem realizar tarefas autonomamente em nome de um ser humano ou de outro sistema. Embora possuam recursos de grandes modelos de linguagem (LLM) como processamento de linguagem natural, esses sistemas autônomos também podem tomar decisões, resolver problemas, executar ações e interagir com ambientes externos.
Com esses recursos, os agentes de IA podem ir além de criar respostas textuais para comandos de usuários e realmente realizar tarefas no mundo real.
Por exemplo, interações externas acontecem através de chamadas de ferramenta, também conhecidas como chamadas de função, que é uma interface que permite aos agentes trabalhar em tarefas que exigem informações oportunas que de outra forma estariam indisponíveis para os LLMs. Portanto, agentes de IA implantados em um ecossistema de cadeia de suprimentos poderiam trabalhar autonomamente para otimizar os níveis de inventário, alterando os cronogramas de produção e fazendo pedidos aos fornecedores conforme necessário.
Quando se trata de inteligência artificial avançada, como a IA agêntica, quanto de autonomia é demais? Para responder a essa pergunta, podemos analisar o cenário do maximizador de clipes de papel. O famoso experimento mental, do filósofo Nick Bostrom, gira em torno do conceito ainda hipotético de superinteligência IA ou ASI, um sistema de IA com um escopo intelectual que supera o da inteligência humana. A Bostrom considera o que poderia acontecer se tal sistema priorizasse a fabricação de clipes de papel acima de todos os outros objetivos.
No cenário proposto, o sistema eventualmente dedica todos os recursos do nosso planeta à fabricação de clipes de papel, um resultado antiético quando a vida depende de mais do que apenas uma abundância interminável de pequenos suprimentos metálicos de escritório. Voltando à nossa pergunta original, podemos obviamente concluir que, neste caso hipotético, o sistema de IA em questão tinha autonomia demais.
A boa notícia é que a IA agêntica de hoje não é a mesma que a ASI, portanto, uma distopia dos clipes de papel, causada por uma ética de máquina catastrófica, continua improvável. "Estamos mais próximos, mas ainda estamos longe", afirma Varshney.
Outros riscos decorrentes da automação da IA, no entanto, são mais iminentes. As possibilidades vão desde agentes artificiais enviando e-mails inadequados até parar e iniciar máquinas de maneiras que os usuários não haviam planejado, diz Varshney. As preocupações com o comportamento autônomo da IA são sérias o suficiente para que, em um relatório de abril de 2024 sobre segurança da IA e diretrizes de segurança, o Departamento de Segurança Interna dos EUA (DHS) tenha incluído “autonomia” em sua lista de riscos para sistemas de infraestrutura crítica, como comunicações, serviços financeiros e saúde.2
As soluções existentes de governança de IA podem apoiar a ética dos agentes de IA, com ferramentas de software já capacitando as organizações a monitorar, avaliar e tratar vieses provenientes de conjuntos de dados de treinamento de conjunto de dados e algoritmos que podem distorcer os processos de tomada de decisão. Essas ferramentas também podem ajudar desenvolvedores e empresas a garantir que as ferramentas de IA que estão usando atendam aos padrões atuais de IA confiável, objetivos de explicabilidade e princípios de IA responsável, amplamente adotados por diversas empresas e governos.
Mas, à medida que as empresas incorporam cada vez mais a IA agêntica aos fluxos de trabalho, pesquisadores também estão desenvolvendo novas soluções e estratégias éticas de IA que podem reduzir comportamentos inadequados em agentes autônomos e melhorar a sustentabilidade da tecnologia de IA. Aqui estão vários que valem a pena seguir:
Os modelos de IA pré-treinados hoje passam por ajustes finos para serem treinados com dados específicos de domínio. Durante a fase de ajustes finos no desenvolvimento de IA, os modelos podem ser alinhados aos valores morais e considerações éticas, mas frequentemente surgem questões sobre quais valores normativos devem ser incluídos no alinhamento. Afinal, valores e frameworks éticos variam conforme a empresa, o país, o grupo de stakeholders e assim por diante.
Varshney e uma equipe de pesquisadores da IBM propuseram uma abordagem orientada por tecnologia que seria mais específica para o contexto: conhecida como Alignment Studio, ela alinha grandes modelos de linguagem a regras e valores delineados em documentos de políticas em linguagem natural, como regulamentos governamentais ou as diretrizes éticas de uma empresa.
A abordagem, detalhada em um artigo de setembro de 2024 publicado na revista IEEE Internet Computing, inclui um ciclo contínuo de desenvolvimento para que os modelos não apenas aprendam o vocabulário relacionado à política a partir dos documentos de política, mas realmente adotem comportamentos desejados para um melhor alinhamento de valores..3
Entre as causas de comportamentos inadequados de agentes de IA está a falta de instruções específicas por parte do usuário ou uma má interpretação das instruções do usuário pelo agente. Esses “mal-entendidos” podem fazer com que os agentes escolham as ferramentas erradas ou as usem de maneiras inadequadas ou prejudiciais, o que é conhecido como uma alucinação de chamada de função.
Felizmente, melhorar a chamada de função se tornou um esforço competitivo, com a criação de vários benchmarks para medir a eficácia da chamada de APIs por LLMs. Entre as melhorias mais recentes está uma nova funcionalidade na última versão do IBM Granite Guardian, Granite Guardian 3.1, parte da família de modelos de linguagem Granite da IBM, projetados especificamente para empresas. O modelo pode detectar alucinações de chamada de função por agentes antes que consequências indesejadas ocorram. “O detector verifica todos os tipos de erros, desde a descrição em linguagem humana até a função chamada,” explica Varshney.
Agentes mal-intencionados já usaram IA generativa para permear as redes sociais com deepfakes, que são áudios, vídeos ou imagens gerados por IA que podem recriar a semelhança de uma pessoa. Enquanto isso, os golpistas aproveitaram o texto gerado por IA para e-mails de phishing mais sofisticados. E o poder da IA agêntica pode agravar essas tendências perigosas.
Pesquisadores da Google DeepMind advertiram em um relatório de abril de 2024 que “as evidências mostram que os resultados gerados por IA podem ser tão convincentes quanto os argumentos humanos”. Eles disseram que, no futuro, agentes mal-intencionados poderão usar IA autônoma para “personalizar conteúdos com informações falsas de forma extremamente precisa, explorando as emoções e fragilidades dos usuários”.4
Até agora, o desempenho das ferramentas criadas para detectar fraudes impulsionado por IA tem sido misto. Mas os pesquisadores continuam a enfrentar o desafio de melhorar a detecção de IA, com alguns dos resultados mais promissores vindo da última geração de detectores de texto gerados por IA.5
Por exemplo, um novo framework chamado Radar, criado por pesquisadores da Universidade Chinesa de Hong Kong e da IBM Research, usa o aprendizado adversário entre dois modelos de linguagem separados e ajustáveis para treinar um detector de texto de IA, levando a um melhor desempenho em comparação com soluções de detecção de texto de IA mais antigas.6
Com o avanço da tecnologia de detecção de IA, empresas de tecnologia como IBM, Microsoft e OpenAI também estão pedindo aos formuladores de políticas que aprovem leis para combater a distribuição de deepfakes e responsabilizar os agentes mal-intencionados.7
Embora muitas das questões éticas originadas pela IA agêntica estejam relacionadas a comportamentos inadequados, outras preocupações éticas surgem mesmo quando a tecnologia de IA autônoma funciona conforme o esperado. Por exemplo, muita discussão tem se concentrado em aplicações de IA como o ChatGPT da OpenAI, substituindo o trabalho humano e eliminando meios de subsistência.
Mas mesmo quando as empresas implementam IA para ampliar (e não substituir) a mão de obra humana, os funcionários podem sofrer consequências psicológicas. Varshney explica que, se os trabalhadores perceberem que os agentes de IA executam melhor suas funções, isso pode afetar sua autoestima. “Se você estiver em uma posição em que todo seu conhecimento parece inútil, como se estivesse subordinado ao agente de IA, você pode perder sua dignidade”, afirma. Em alguns debates sobre ética da IA, essa perda de dignidade é vista como uma violação dos direitos humanos.8
Em um artigo de pesquisa de agosto de 2024, Varshney e vários pesquisadores universitários propuseram uma abordagem organizacional para lidar com a questão da dignidade: colaboração adversário. De acordo com seu modelo, os humanos ainda seriam responsáveis por fornecer as recomendações finais, enquanto os sistemas de IA são implementados para examinar o trabalho humano.
"O humano está, em última análise, tomando a decisão, e o algoritmo não foi projetado para competir nesse papel, mas para questionar e, assim, aprimorar as recomendações do agente humano", escreveram os pesquisadores.9 Essa colaboração adversária, diz Varshney, "é uma forma de organizar as coisas que podem manter viva a dignidade humana".
1 “Supermarket AI meal planner app suggests recipe that would create chlorine gas.” The Guardian. 10 de agosto de 2023.
2 “Mitigating Artificial Intelligence (AI) Risk: Safety and Security Guidelines for Critical Infrastructure Owners and Operators." US Department of Homeland Security. Abril de 2024.
3 “Alignment Studio: Aligning Large Language Models to Particular Contextual Regulations.” IEEE Internet Computing, Volume 28, Issue 5, Set-Out. 2024.
4 “The Ethics of Advanced AI Assistants.” Google DeepMind. 19 de abril de 2024.
5 “Robustness of generative AI detection: adversarial attacks on black-box neural text detectors.” International Journal of Speech Technology. 16 de outubro de 2024.
6 “RADAR: Robust AI-Text Detection via Adversarial Learning." Avanços nos Sistemas de Processamento de Informações Neurais. Dezembro de 2023.
7 “Senators Coons, Blackburn, Klobuchar, Tillis introduce bill to protect individuals’ voices and likenesses from AI-generated replicas." Chris Coons. 31 de julho de 2024.
8 “An Overview of Artificial Intelligence Ethics." IEEE. 28 de julho de 2022.
9 “When Trust is Zero Sum: Automation’s Threat to Epistemic Agency.” arXiv.org. 16 de agosto de 2024.
Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.
Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM Consulting.
Simplifique a forma como você gerencia os riscos e a conformidade regulatória com uma plataforma de GRC unificada.