15 de abril de 2025
Temos o prazer de anunciar o Model Risk Evaluation Engine, uma nova ferramenta no watsonx.governance que pode medir os riscos de modelos de base por meio da computação de métricas relacionadas às dimensões de risco do AI Risk Atlas. Como parte de um processo abrangente de integração de modelos, ele permite a comparação de métricas de risco em diferentes modelos de base, ajudando a identificar o modelo de base mais adequado para implementação em sua organização, de acordo com a tolerância a riscos específica da organização.
Conforme as empresas continuam a escalar suas implementações de IA generativa, é cada vez mais importante que desenvolvam uma melhor compreensão dos riscos associados aos modelos de base subjacentes, incluindo injeção de prompt, saída tóxica, jailbreaking e alucinação.
As organizações têm muitas opções quando se trata de selecionar quais modelos de IA generativa usar em seus negócios. Tomar uma decisão informada é importante para evitar situações em que os modelos generativos tenham um desempenho ruim (por exemplo, um chatbot "desonesto" voltado para o cliente dando orientações incorretas ou prejudiciais). Essas situações podem ter um enorme impacto na reputação, do qual pode ser difícil para a organização se recuperar. Portanto, ter dados quantitativos objetivos de risco para evitar esses tipos de situações deve fazer parte do processo de integração de modelo de uma organização.
O processo de integração para modelos de IA generativa possui três estágios:
Integrar uma biblioteca de riscos é o primeiro passo para entender quais riscos podem ser aplicáveis. O AI Risk Atlas da IBM é um ótimo recurso para entender os riscos associados ao uso de modelos de IA generativa e aprendizado de máquina. Os riscos também são integrados diretamente ao Governance Console do watsonx.governance e estão disponíveis imediatamente. A biblioteca de riscos também pode ser complementada com o inventário de riscos da própria organização, se desejado. Os riscos podem ser vinculados a casos de uso e modelos de IA por meio das avaliações de identificação de riscos prontas para uso (caso de uso de IA, integração de modelo e caso de uso + modelo combinados).
Compreender os riscos que podem ser aplicáveis é uma ótima primeira etapa, mas é igualmente importante ter métodos eficazes para identificar, medir e mitigar esses riscos.
O watsonx.governance vem com três avaliações de identificação de riscos:
Essas avaliações são usadas para determinar quais riscos do Risk Atlas são aplicáveis ao modelo e/ou caso de uso que está sendo integrado. No watsonx.governance Governance Console, há um fluxo de trabalho para a integração de modelos de base que inclui a avaliação do questionário de identificação de riscos já mencionada.
Depois de identificados, os riscos aplicáveis devem ser examinados individualmente usando uma autoavaliação de risco e controle (RCSA) para determinar o risco inerente e residual. Isso produzirá um perfil de risco para o modelo que pode informar qual tipo de uso uma organização estaria disposta a aprovar para o modelo, como RAG, classificação ou sumarização.
Para melhor informar o processo RCSA, algumas avaliações quantitativas podem ser realizadas para obter uma compreensão mais profunda do risco de um determinado modelo e como ele se compara a modelos semelhantes. As empresas também têm o poder de avaliar os riscos de qualquer modelo que desenvolvam ou aprimorem (por meio, por exemplo, de ajustes).
O Model Risk Evaluation Engine, agora parte do watsonx.governance, ajuda na avaliação quantitativa de riscos de modelos de base. Ele calcula métricas relacionadas a um conjunto definido de dimensões de risco do AI Risk Atlas. Ao calcular essas métricas para uma ampla seleção de modelos de base, as empresas podem escolher os modelos que atendem a seus objetivos de negócios e, ao mesmo tempo, se alinham a seu apetite ao risco.
O Model Risk Evaluation Engine aceita a avaliação de grandes modelos de linguagem do IBM watsonx.ai, bem como qualquer grande modelo de linguagem externo. Os resultados preenchidos do mecanismo de avaliação podem ser salvos no Governance Console do watsonx.governance ou exportados como um relatório PDF.
O Model Risk Evaluation Engine ajuda a realizar as seguintes tarefas:
Quando todos esses dados voltarem para o Governance Console, poderão ser usados para informar a etapa de avaliação de risco do fluxo de trabalho de integração do modelo de base descrito acima.
Os usuários do watsonx.governance podem acessar o Model Risk Evaluation Engine executando o seguinte comando:
Nosso exemplo de bloco de notas contém instruções para você mesmo experimentá-lo. A página de documentação do Model Risk Evaluation Engine também contém mais informações.
Se você deseja que sua organização identifique, meça e mitigue os riscos de IA generativa de forma eficaz, uma solução de governança de IA de ponta a ponta como o watsonx.governance é essencial. Experimente por sua conta ou agende um horário para conversarmos com um especialista da IBM hoje mesmo.
.