Avaliando implementações desconectadas em espaços

É possível criar uma implementação separada para avaliar modelos de prompt para modelos de base que não são criados ou hospedados pela IBM.

Para avaliar modelos de base externos em watsonx.governance, é possível criar uma implementação separada em um espaço de implementação para conectar-se ao seu modelo de prompt externo Ao avaliar uma implementação separada, é possível medir com que eficiência seu modelo externo gera respostas para os seguintes tipos de tarefas:

  • Resumo de textos
  • Classificação de texto
  • Resposta à pergunta
  • Extração de entidade
  • Geração de conteúdo
  • Geração aumentada por recuperação (RAG)

Antes de iniciar

Permissões necessárias: É necessário ter as funções de Administrador ou Editor para avaliar implantações independentes em um espaço de implantação.

Em seu projeto, é possível criar e avaliar um modelo de prompt separado e promover um modelo de prompt separado para um espaço de implementação.

Se você não promover um modelo de prompt independente para um espaço de implantação, será necessário criar um modelo de prompt independente que conecte seu modelo externo a watsonx.governance. Você pode criar modelos de prompt independentes diretamente pela interface do usuário, tanto em projetos quanto em espaços de implantação. Antes de avaliar modelos de prompt independentes no Spaces, é necessário fornecer detalhes de conexão, como o nome do seu modelo externo e sua URL, ao criar o modelo de prompt independente.

Criar um modelo de prompt independente a partir da interface do usuário

Você pode criar um modelo de prompt independente diretamente na interface do usuário do watsonx.governance. Os modelos de prompt independentes permitem avaliar os prompts independentemente dos recursos de implantação.

Procedimento:

  1. Vá até a guia “Ativos” para definir os detalhes do ativo. No seu projeto ou espaço, acesse a seção “Modelos de ativos” e selecione “Novo ativo ” > “Preparar um modelo de prompt externo para avaliação ”. Campos obrigatórios:
  • Nome
  • Modelo de prompt URL
  • Modelo de base URL
  • Tipo de tarefa
  1. Insira o prompt Na seção Prompt, insira o prompt base que você deseja usar para a avaliação. Esta solicitação define a instrução ou pergunta que será processada pelo modelo de linguagem de grande porte.

  2. Configure o método de decodificação

Selecione um método de decodificação:

Greedy: Gera o próximo token mais provável a cada passo. Amostragem: Introduz o elemento aleatório no processo de geração.

  1. Defina as variáveis do prompt (opcional para a criação, obrigatório para a avaliação) Na seção Variáveis do prompt, defina todas as variáveis utilizadas no prompt. Variáveis são pares de chave-valor que são inseridos no prompt durante a avaliação. Essas variáveis não são obrigatórias ao criar o modelo, mas é necessário fornecer pelo menos uma variável para avaliar o modelo.

  2. Revise e crie o modelo de prompt. Verifique se todos os campos obrigatórios estão preenchidos e, em seguida, clique em Criar para salvar o modelo de prompt independente.

Crie um modelo de prompt independente usando a API

O exemplo a seguir mostra como criar um modelo de prompt separado com a API:

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

Criando uma implementação separada de um espaço

Se você não promover um modelo de prompt desconectado para o espaço de implementação de seu projeto, deverá criar uma implementação desconectada de um espaço. É possível usar as etapas a seguir para criar uma implementação separada de um espaço de implementação:

  1. Após criar o modelo de prompt, salve-o em um espaço de implementação, especificando o ID do espaço.

    {
        "prompt_template": {
        "id": "<PT ID>"
        },
        "detached": {},
        "base_model_id": "abcabc",
        "description": "Prompt template deployment description",
        "name": "Prompt template deployment name",
        "space_id": "<Space ID>"
    }
    
  2. Na guia Ativos do espaço de implantação, clique em Nova implantação para o ativo de modelo de prompt desconectado.

  3. Escolha Remover como o tipo de implementação.

  4. Forneça um nome e uma descrição opcional para a implementação

Criando uma implementação separada

Se você rastrear o modelo de prompt separado em um caso de uso de IA, a implementação separada será incluída no caso de uso.

Rastreando uma implementação separada

Avaliando uma implementação separada em um espaço

As seções a seguir descrevem como avaliar implementações separadas em espaços e revisar seus resultados de avaliação:

Avaliando implementações desconectadas em espaços de pré-produção

Executar avaliação

Para executar avaliações de modelo de prompt, é possível clicar em Avaliar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Executar avaliação do modelo de prompt externo

Se você não tiver uma instância watsonx.governance associada ao seu espaço de implementação, deverá selecionar Associar uma instância de serviço na caixa de diálogo Associar uma instância de serviço antes de poder executar avaliações. Na janela Associar instância para avaliação , deve-se escolher a instância watsonx.governance que deseja usar e selecionar Associar uma instância de serviço para associar uma instância ao seu espaço de implementação. Deve-se estar designado à função Admin para o seu espaço de implementação para associar instâncias

Associar a instância watsonx.governance

Se você não tiver um banco de dados associado à sua instância watsonx.governance , também deverá associar um banco de dados antes de poder executar avaliações. Para associar um banco de dados, você também deve clicar em Associar banco de dados na caixa de diálogo Banco de dados necessário para se conectar a um banco de dados. Deve-se ter designado a função Administrador para o seu espaço de implementação e a instância watsonx.governance para associar bancos de dados

Selecionar dimensões

O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Selecionar dimensões de llm externas para avaliar

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Configurar avaliações de llm externas

Selecione os dados de teste

Você deve enviar um arquivo ` CSV ` que contenha dados de teste com colunas de referência que incluam a entrada e a saída esperada do modelo. Os dados de teste que você enviar devem conter a saída do modelo em uma coluna chamada generated_text para permitir avaliações de implantação independentes.

Quando o upload for concluído, você também deverá mapear as variáveis de prompt para as colunas correspondentes dos seus dados de teste. Selecione dados de teste de LLM externos para fazer upload

Revisar e avaliar

É possível revisar as seleções para o tipo de tarefa de prompt, os dados de teste transferidos por upload e o tipo de avaliação executado. Deve-se selecionar Avaliar para executar a avaliação

Revisar e avaliar configurações de avaliação do modelo de prompt desconectado

Revisando resultados da avaliação

Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...

Para analisar os resultados, você pode clicar na seta seta de navegação ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados

O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:

  • Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
  • Todas as avaliações: exiba um histórico de suas avaliações para entender como seus resultados mudam com o tempo.
  • Configurar monitores: configure limites de avaliação e tamanhos de amostra.
  • Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Analisar resultados da avaliação do modelo de prompt desconectado

Avaliando implementações desconectadas em espaços de produção

Ativar avaliação

Para executar avaliações de modelo de prompt, é possível clicar em Ativar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Executar avaliação do modelo de prompt desconectado

Se você não tiver uma instância watsonx.governance associada ao seu espaço de implementação, deverá selecionar Associar uma instância de serviço na caixa de diálogo Associar uma instância de serviço antes de poder executar avaliações. Na janela Associar instância para avaliação , deve-se escolher a instância watsonx.governance que deseja usar e selecionar Associar uma instância de serviço para associar uma instância ao seu espaço de implementação. Deve-se estar designado à função Admin para o seu espaço de implementação para associar instâncias

Associar a instância watsonx.governance

Se você não tiver um banco de dados associado à sua instância watsonx.governance , também deverá associar um banco de dados antes de poder executar avaliações. Para associar um banco de dados, você também deve clicar em Associar banco de dados na caixa de diálogo Banco de dados necessário para se conectar a um banco de dados. Deve-se ter designado a função Administrador para o seu espaço de implementação e a instância watsonx.governance para associar bancos de dados

Selecionar dimensões

O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível fornecer um nome de coluna de rótulo para a saída de referência especificada em seus dados de feedback. Também é possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Selecione as dimensões a serem avaliadas

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Configurar avaliações

Revisar e avaliar

É possível revisar as seleções para o tipo de tarefa de prompt e o tipo de avaliação executado. Também é possível selecionar Visualizar esquema de carga útil ou Visualizar esquema de feedback para validar que seus nomes de colunas correspondem aos nomes de variável de prompt no modelo de prompt. Deve-se selecionar Ativar para executar a avaliação

Revisar e avaliar seleções

Para gerar resultados de avaliação, selecione Avaliar agora no menu Ações para abrir a janela Importação de dados de teste quando a página de resumo de avaliação for exibida

Selecione avaliar agora

Importar dados de teste

Na janela “Importar dados de teste ”, você pode selecionar “Carregar dados de carga útil” ou “Carregar dados de feedback” para carregar um arquivo ` CSV ` que contenha colunas identificadas que correspondam às colunas dos esquemas de carga útil e de feedback.

Importar dados de teste

Revisando resultados da avaliação

Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...

Para analisar os resultados, você pode clicar na seta seta de navegação ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados

O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:

  • Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
  • Configurar monitores: configure limites de avaliação e tamanhos de amostra.
  • Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Analisar resultados da avaliação do modelo de prompt desconectado

Se você estiver acompanhando a implantação independente em um caso de uso de IA, os detalhes sobre o modelo e os resultados da avaliação são registrados em uma ficha técnica que você pode consultar.