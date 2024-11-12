Modelos de IA estão sendo cada vez mais solicitados a se avaliarem, levantando uma pergunta crítica: quem observa os observadores?
As empresas de IA estão desenvolvendo modelos para avaliar outros sistemas de IA, marcando uma mudança em relação aos métodos tradicionais de avaliação liderados por humanos. O novo modelo da Meta, por exemplo, pode avaliar o desempenho da IA sem entrada humana. E isso está gerando discussão entre os pesquisadores sobre a precisão e as limitações dos testes automatizados.
O Self-Taught Evaluator usa dados de treinamento gerados por IA e uma técnica de cadeia de pensamento para avaliar respostas de ciência, programação e matemática. O objetivo é a transparência, mas ela traz riscos. "Isso é um grande problema: validar validadores", diz o IBM Fellow Kush Varshney. A autoavaliação da IA é promissora, mas também traz sérios riscos. Varshney e sua equipe na IBM estão desenvolvendo métricas de avaliação para modelos de LLM como juiz—LLMs que podem avaliar outras saídas da IA. Ainda assim, como diz Varshney, "isso é um problema de pesquisa em aberto".
A preocupação central é se os modelos de IA podem ser confiáveis para melhorar a si mesmos ou se correm o risco de amplificar seus próprios erros.
"Pense em levar um microfone para perto de um alto-falante", diz Varshney. “Em qualquer sistema de feedback, os erros ou ruídos são amplificados.”
O Self-Taught Evaluator da Meta tenta mitigar esses riscos fornecendo uma trilha de raciocínio, semelhante a um ser humano explicando seu processo de pensamento. Entretanto, confiar em dados sintéticos e no autoaprimoramento levanta uma questão: os julgamentos do modelo são sem viés? O viés acontece quando a saída de um sistema de IA reflete suposições injustas ou distorcidas, geralmente como resultado de dados ou algoritmos com viés.
"O objetivo tem que ser tornar os juízes LLM sem viés, por isso precisamos avaliar o viés", diz Varshney. Um método envolve embaralhar respostas de múltipla escolha para determinar se um modelo apresenta viés posicional, o que significa que favorece uma resposta em detrimento de outras. Junto com o viés de verbosidade e o viés de autoaprimoramento, os vieses posicionais podem distorcer as avaliações. "Gerenciar esses riscos faz parte do desenvolvimento da IA", diz Varshney. O avanço da IA responsável requer identificação e mitigação de vieses.
Garantir uma autoavaliação confiável de IA é ainda mais desafiador em campos especializados, como matemática avançada e pesquisa científica. Isso significa que muitas vezes há necessidade de especialistas humanos para validar resultados e manter os sistemas de IA confiáveis e no caminho certo.
"Há muitos truques na tentativa de fazer isso, como embaralhar as respostas de múltipla escolha", diz Varshney.
Segundo Dev Nag, fundador e CEO da QueryPal, o Self-Taught Evaluator da Meta é sobre amplificar e escalar o julgamento humano — não sobre tirar seres humanos do circuito.
"Pense nisso como semelhante a como um professor pode criar problemas práticos com base em sua compreensão do que torna uma resposta boa ou ruim", diz Nag. "Assim como o AlphaGo usou as regras do Go como base antes de se engajar no autojogo, o Self-Taught Evaluator se baseia em critérios de qualidade estabelecidos por seres humanos antes de gerar exemplos de treinamento sintético que incorporam implicitamente o julgamento humano."
Mesmo com o automonitoramento da IA, as auditorias periódicas podem detectar vieses ocultos ou problemas, diz Dan O'Toole, CEO da Arrive AI.
"Empregar vários modelos de IA para realizar a mesma avaliação de forma independente, ou encadeá-los sequencialmente, reduz erros e destaca possíveis problemas", diz ele. A explicabilidade também é essencial. "A cadeia de pensamento é um passo importante em direção à transparência, aumentando a confiabilidade."
O'Toole enfatiza que métricas especializadas são cruciais para campos como matemática avançada e pesquisa científica. Meta, por exemplo, usou o MT-Bench e o RewardBench para avaliação de uso geral, diz ele, mas benchmarks como o GSM8K são apropriados para resolução de problemas matemáticos. O CRUXEval pode ajudar com o raciocínio do código, enquanto benchmarks de domínios específicos, como FactKB, PubMed e SciBench, podem ajudar a garantir que os modelos atendam às necessidades específicas.
Nag enfatiza que medir o desempenho e garantir a confiabilidade são cruciais, especialmente em campos especializados. Ele acredita que o benchmark definitivo deve ser o quanto os resultados se alinham com as avaliações feitas por especialistas humanos no campo.
"O acordo de 88,7% do Self-Taught Evaluator com os julgamentos humanos no RewardBench é uma base sólida, mas rastrear outros fatores, como consistência, explicabilidade e a capacidade do sistema de identificar casos de edge, é igualmente importante", diz ele. "Assim como o autojogo do AlphaGo foi validado por seu desempenho em relação a campeões humanos, os sistemas avaliadores devem ser testados regularmente em comparação a painéis de especialistas em domínios."
Jen Clark, que dirige serviços de consultoria e tecnologia na EisnerAmper, enfatiza que o desenvolvimento de IA requer frameworks estruturados para garantir tanto a segurança quanto o progresso efetivo.
"Conforme a IA continua avançando, é crucial confiar em metodologias que tenham apoiado pesquisas com humanos, como o método científico, comunidades fortes e redes de colaboração", diz ela. "Concentrar esforços aqui é essencial para a segurança da IA por meio do crowdsourcing e para gerenciar a velocidade e a escala do desenvolvimento da IA."
Treine, valide, ajuste e implemente IA generativa, modelos fundacionais e recursos de machine learning com o IBM watsonx.ai, um estúdio empresarial de última geração para desenvolvedores de IA. Crie aplicações de IA em uma fração do tempo e com muito menos dados.