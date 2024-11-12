Garantir uma autoavaliação confiável de IA é ainda mais desafiador em campos especializados, como matemática avançada e pesquisa científica. Isso significa que muitas vezes há necessidade de especialistas humanos para validar resultados e manter os sistemas de IA confiáveis e no caminho certo.

"Há muitos truques na tentativa de fazer isso, como embaralhar as respostas de múltipla escolha", diz Varshney.

Segundo Dev Nag, fundador e CEO da QueryPal, o Self-Taught Evaluator da Meta é sobre amplificar e escalar o julgamento humano — não sobre tirar seres humanos do circuito.

"Pense nisso como semelhante a como um professor pode criar problemas práticos com base em sua compreensão do que torna uma resposta boa ou ruim", diz Nag. "Assim como o AlphaGo usou as regras do Go como base antes de se engajar no autojogo, o Self-Taught Evaluator se baseia em critérios de qualidade estabelecidos por seres humanos antes de gerar exemplos de treinamento sintético que incorporam implicitamente o julgamento humano."

Mesmo com o automonitoramento da IA, as auditorias periódicas podem detectar vieses ocultos ou problemas, diz Dan O'Toole, CEO da Arrive AI.

"Empregar vários modelos de IA para realizar a mesma avaliação de forma independente, ou encadeá-los sequencialmente, reduz erros e destaca possíveis problemas", diz ele. A explicabilidade também é essencial. "A cadeia de pensamento é um passo importante em direção à transparência, aumentando a confiabilidade."

O'Toole enfatiza que métricas especializadas são cruciais para campos como matemática avançada e pesquisa científica. Meta, por exemplo, usou o MT-Bench e o RewardBench para avaliação de uso geral, diz ele, mas benchmarks como o GSM8K são apropriados para resolução de problemas matemáticos. O CRUXEval pode ajudar com o raciocínio do código, enquanto benchmarks de domínios específicos, como FactKB, PubMed e SciBench, podem ajudar a garantir que os modelos atendam às necessidades específicas.

Nag enfatiza que medir o desempenho e garantir a confiabilidade são cruciais, especialmente em campos especializados. Ele acredita que o benchmark definitivo deve ser o quanto os resultados se alinham com as avaliações feitas por especialistas humanos no campo.

"O acordo de 88,7% do Self-Taught Evaluator com os julgamentos humanos no RewardBench é uma base sólida, mas rastrear outros fatores, como consistência, explicabilidade e a capacidade do sistema de identificar casos de edge, é igualmente importante", diz ele. "Assim como o autojogo do AlphaGo foi validado por seu desempenho em relação a campeões humanos, os sistemas avaliadores devem ser testados regularmente em comparação a painéis de especialistas em domínios."

Jen Clark, que dirige serviços de consultoria e tecnologia na EisnerAmper, enfatiza que o desenvolvimento de IA requer frameworks estruturados para garantir tanto a segurança quanto o progresso efetivo.

"Conforme a IA continua avançando, é crucial confiar em metodologias que tenham apoiado pesquisas com humanos, como o método científico, comunidades fortes e redes de colaboração", diz ela. "Concentrar esforços aqui é essencial para a segurança da IA por meio do crowdsourcing e para gerenciar a velocidade e a escala do desenvolvimento da IA."