Avaliando implementações desconectadas em espaços
É possível criar uma implementação separada para avaliar modelos de prompt para modelos de base que não são criados ou hospedados pela IBM.
Para avaliar modelos de base externos em watsonx.governance, é possível criar uma implementação separada em um espaço de implementação para conectar-se ao seu modelo de prompt externo Ao avaliar uma implementação separada, é possível medir com que eficiência seu modelo externo gera respostas para os seguintes tipos de tarefas:
- Resumo de textos
- Classificação de texto
- Resposta à pergunta
- Extração de entidade
- Geração de conteúdo
- Geração aumentada por recuperação (RAG)
Antes de iniciar
Permissões necessárias: É necessário ter as funções de Administrador ou Editor para avaliar implantações independentes em um espaço de implantação.
Em seu projeto, é possível criar e avaliar um modelo de prompt separado e promover um modelo de prompt separado para um espaço de implementação.
Se você não promover um modelo de prompt independente para um espaço de implantação, será necessário criar um modelo de prompt independente que conecte seu modelo externo a watsonx.governance. Você pode criar modelos de prompt independentes diretamente pela interface do usuário, tanto em projetos quanto em espaços de implantação. Antes de avaliar modelos de prompt independentes no Spaces, é necessário fornecer detalhes de conexão, como o nome do seu modelo externo e sua URL, ao criar o modelo de prompt independente.
Criar um modelo de prompt independente a partir da interface do usuário
Você pode criar um modelo de prompt independente diretamente na interface do usuário do watsonx.governance. Os modelos de prompt independentes permitem avaliar os prompts independentemente dos recursos de implantação.
Procedimento:
- Vá até a guia “Ativos” para definir os detalhes do ativo. No seu projeto ou espaço, acesse a seção “Modelos de ativos” e selecione “Novo ativo ” > “Preparar um modelo de prompt externo para avaliação ”. Campos obrigatórios:
- Nome
- Modelo de prompt URL
- Modelo de base URL
- Tipo de tarefa
Insira o prompt Na seção Prompt, insira o prompt base que você deseja usar para a avaliação. Esta solicitação define a instrução ou pergunta que será processada pelo modelo de linguagem de grande porte.
Configure o método de decodificação
Selecione um método de decodificação:
Greedy: Gera o próximo token mais provável a cada passo. Amostragem: Introduz o elemento aleatório no processo de geração.
Defina as variáveis do prompt (opcional para a criação, obrigatório para a avaliação) Na seção Variáveis do prompt, defina todas as variáveis utilizadas no prompt. Variáveis são pares de chave-valor que são inseridos no prompt durante a avaliação. Essas variáveis não são obrigatórias ao criar o modelo, mas é necessário fornecer pelo menos uma variável para avaliar o modelo.
Revise e crie o modelo de prompt. Verifique se todos os campos obrigatórios estão preenchidos e, em seguida, clique em Criar para salvar o modelo de prompt independente.
Crie um modelo de prompt independente usando a API
O exemplo a seguir mostra como criar um modelo de prompt separado com a API:
{
"name": "prompt name",
"description": "prompt description",
"model_version": {
"number": "2.0.0-rc.7",
"tag": "my prompt tag",
"description": "my description"
},
"prompt_variables": {
"var1": {},
"var2": {}
},
"task_ids": [
"retrieval_augmented_generation"
],
"input_mode": "detached",
"prompt": {
"model_id": "",
"input": [
[
"Some input",
""
]
],
"data": {},
"external_information": {
"external_prompt_id": "external prompt",
"external_model_id": "external model",
"external_model_provider": "external provider",
"external_prompt": {
"url": "https://asdfasdf.com?asd=a&32=1",
"additional_information": [
{
"additional_key": "additional settings"
}
]
},
"external_model": {
"name": "An external model",
"url": "https://asdfasdf.com?asd=a&32=1"
}
}
}
}
Criando uma implementação separada de um espaço
Se você não promover um modelo de prompt desconectado para o espaço de implementação de seu projeto, deverá criar uma implementação desconectada de um espaço. É possível usar as etapas a seguir para criar uma implementação separada de um espaço de implementação:
Após criar o modelo de prompt, salve-o em um espaço de implementação, especificando o ID do espaço.
{ "prompt_template": { "id": "<PT ID>" }, "detached": {}, "base_model_id": "abcabc", "description": "Prompt template deployment description", "name": "Prompt template deployment name", "space_id": "<Space ID>" }Na guia Ativos do espaço de implantação, clique em Nova implantação para o ativo de modelo de prompt desconectado.
Escolha Remover como o tipo de implementação.
Forneça um nome e uma descrição opcional para a implementação

Se você rastrear o modelo de prompt separado em um caso de uso de IA, a implementação separada será incluída no caso de uso.

Avaliando uma implementação separada em um espaço
As seções a seguir descrevem como avaliar implementações separadas em espaços e revisar seus resultados de avaliação:
Avaliando implementações desconectadas em espaços de pré-produção
Executar avaliação
Para executar avaliações de modelo de prompt, é possível clicar em Avaliar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Se você não tiver uma instância watsonx.governance associada ao seu espaço de implementação, deverá selecionar Associar uma instância de serviço na caixa de diálogo Associar uma instância de serviço antes de poder executar avaliações. Na janela Associar instância para avaliação , deve-se escolher a instância watsonx.governance que deseja usar e selecionar Associar uma instância de serviço para associar uma instância ao seu espaço de implementação. Deve-se estar designado à função Admin para o seu espaço de implementação para associar instâncias

Se você não tiver um banco de dados associado à sua instância watsonx.governance , também deverá associar um banco de dados antes de poder executar avaliações. Para associar um banco de dados, você também deve clicar em Associar banco de dados na caixa de diálogo Banco de dados necessário para se conectar a um banco de dados. Deve-se ter designado a função Administrador para o seu espaço de implementação e a instância watsonx.governance para associar bancos de dados
Selecionar dimensões
O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Selecione os dados de teste
Você deve enviar um arquivo ` CSV ` que contenha dados de teste com colunas de referência que incluam a entrada e a saída esperada do modelo. Os dados de teste que você enviar devem conter a saída do modelo em uma coluna chamada generated_text para permitir avaliações de implantação independentes.
Quando o upload for concluído, você também deverá mapear as variáveis de prompt para as colunas correspondentes dos seus dados de teste. 
Revisar e avaliar
É possível revisar as seleções para o tipo de tarefa de prompt, os dados de teste transferidos por upload e o tipo de avaliação executado. Deve-se selecionar Avaliar para executar a avaliação

Revisando resultados da avaliação
Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...
Para analisar os resultados, você pode clicar na seta
ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados
O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:
- Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
- Todas as avaliações: exiba um histórico de suas avaliações para entender como seus resultados mudam com o tempo.
- Configurar monitores: configure limites de avaliação e tamanhos de amostra.
- Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Avaliando implementações desconectadas em espaços de produção
Ativar avaliação
Para executar avaliações de modelo de prompt, é possível clicar em Ativar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Se você não tiver uma instância watsonx.governance associada ao seu espaço de implementação, deverá selecionar Associar uma instância de serviço na caixa de diálogo Associar uma instância de serviço antes de poder executar avaliações. Na janela Associar instância para avaliação , deve-se escolher a instância watsonx.governance que deseja usar e selecionar Associar uma instância de serviço para associar uma instância ao seu espaço de implementação. Deve-se estar designado à função Admin para o seu espaço de implementação para associar instâncias

Se você não tiver um banco de dados associado à sua instância watsonx.governance , também deverá associar um banco de dados antes de poder executar avaliações. Para associar um banco de dados, você também deve clicar em Associar banco de dados na caixa de diálogo Banco de dados necessário para se conectar a um banco de dados. Deve-se ter designado a função Administrador para o seu espaço de implementação e a instância watsonx.governance para associar bancos de dados
Selecionar dimensões
O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível fornecer um nome de coluna de rótulo para a saída de referência especificada em seus dados de feedback. Também é possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Revisar e avaliar
É possível revisar as seleções para o tipo de tarefa de prompt e o tipo de avaliação executado. Também é possível selecionar Visualizar esquema de carga útil ou Visualizar esquema de feedback para validar que seus nomes de colunas correspondem aos nomes de variável de prompt no modelo de prompt. Deve-se selecionar Ativar para executar a avaliação

Para gerar resultados de avaliação, selecione Avaliar agora no menu Ações para abrir a janela Importação de dados de teste quando a página de resumo de avaliação for exibida

Importar dados de teste
Na janela “Importar dados de teste ”, você pode selecionar “Carregar dados de carga útil” ou “Carregar dados de feedback” para carregar um arquivo ` CSV ` que contenha colunas identificadas que correspondam às colunas dos esquemas de carga útil e de feedback.

Revisando resultados da avaliação
Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...
Para analisar os resultados, você pode clicar na seta
ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados
O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:
- Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
- Configurar monitores: configure limites de avaliação e tamanhos de amostra.
- Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Se você estiver acompanhando a implantação independente em um caso de uso de IA, os detalhes sobre o modelo e os resultados da avaliação são registrados em uma ficha técnica que você pode consultar.