Avaliando implementações desconectadas em espaços

É possível criar uma implementação separada para avaliar modelos de prompt para modelos de base que não são criados ou hospedados pela IBM.

Para avaliar modelos de base externos em watsonx.governance, é possível criar uma implementação separada em um espaço de implementação para conectar-se ao seu modelo de prompt externo Ao avaliar uma implementação separada, é possível medir com que eficiência seu modelo externo gera respostas para os seguintes tipos de tarefas:

  • Resumo de textos
  • Classificação de texto
  • Resposta à pergunta
  • Extração de Entidade
  • Geração de conteúdo
  • Geração aumentada de recuperação (RAG)

Antes de iniciar

Permissões necessárias: É necessário ter as funções de Administrador ou Editor para avaliar implantações independentes em um espaço de implantação.

Em seu projeto, é possível criar e avaliar um modelo de prompt separado e promover um modelo de prompt separado para um espaço de implementação.

Se você não promover um modelo de prompt desanexado para um espaço de implementação, deverá criar um modelo de prompt desanexado que conecte seu modelo externo a watsonx.governance. É possível criar modelos de prompt desanexados diretamente por meio da interface do usuário em projetos e espaços de implementação. Antes de avaliar os modelos de prompt desanexados em espaços, você deve fornecer detalhes de conexão, como o nome do modelo externo e o endereço URL, ao criar o modelo de prompt desanexado.

Criar um modelo de prompt desanexado na interface do usuário

É possível criar um modelo de prompt desanexado diretamente na interface de usuário do site watsonx.governance. Os modelos de prompt desvinculados permitem que você avalie os prompts independentemente dos ativos de implementação.

Procedimento:

  1. Vá para a guia Assets (Ativos ) para definir os detalhes do ativo No seu projeto ou espaço, navegue até a seção Modelos de ativos e selecione Novo ativo > Preparar um modelo de prompt externo para avaliação. Campos obrigatórios:
  • Nome
  • URL de modelo de prompt
  • URL de modelo base
  • Tipo de tarefa
  1. Digite o prompt Na seção Prompt, digite o prompt básico que deseja usar para avaliação. Esse prompt define a instrução ou pergunta que será processada pelo modelo de linguagem grande.

  2. Configurar o método de decodificação

Selecione um método de decodificação:

Ganancioso: Gera o próximo token mais provável em cada etapa. Amostragem: Introduz a aleatoriedade no processo de geração.

  1. Definir variáveis de prompt (opcional para criação, obrigatório para avaliação) Na seção Variáveis de prompt, defina quaisquer variáveis usadas no prompt. As variáveis são pares de valores-chave que são injetados no prompt durante a avaliação. Essas variáveis não são necessárias quando você cria o modelo, mas pelo menos uma variável deve ser fornecida para avaliar o modelo.

  2. Revise e crie o modelo de prompt Confirme se todos os campos obrigatórios estão preenchidos e clique em Create (Criar) para salvar o modelo de prompt desanexado.

Criar um modelo de prompt desanexado com a API

O exemplo a seguir mostra como criar um modelo de prompt separado com a API:

{
    "name": "prompt name",
    "description": "prompt description",
    "model_version": {
        "number": "2.0.0-rc.7",
        "tag": "my prompt tag",
        "description": "my description"
    },
    "prompt_variables": {
        "var1": {},
        "var2": {}
    },
    "task_ids": [
        "retrieval_augmented_generation"
    ],
    "input_mode": "detached",
    "prompt": {
        "model_id": "",
        "input": [
            [
                "Some input",
                ""
            ]
        ],
        "data": {},
        "external_information": {
            "external_prompt_id": "external prompt",
            "external_model_id": "external model",
            "external_model_provider": "external provider",
            "external_prompt": {
                "url": "https://asdfasdf.com?asd=a&32=1",
                "additional_information": [
                    {
                        "additional_key": "additional settings"
                    }
                ]
            },
            "external_model": {
                "name": "An external model",
                "url": "https://asdfasdf.com?asd=a&32=1"
            }
        }
    }
}

Criando uma implementação separada de um espaço

Se você não promover um modelo de prompt desconectado para o espaço de implementação de seu projeto, deverá criar uma implementação desconectada de um espaço. É possível usar as etapas a seguir para criar uma implementação separada de um espaço de implementação:

  1. Após criar o modelo de prompt, salve-o em um espaço de implementação, especificando o ID do espaço.

    {
        "prompt_template": {
        "id": "<PT ID>"
        },
        "detached": {},
        "base_model_id": "abcabc",
        "description": "Prompt template deployment description",
        "name": "Prompt template deployment name",
        "space_id": "<Space ID>"
    }
    
  2. Na guia Ativos do espaço de implantação, clique em Nova implantação para o ativo de modelo de prompt desconectado.

  3. Escolha Remover como o tipo de implementação.

  4. Forneça um nome e uma descrição opcional para a implementação

Criando uma implementação separada

Se você rastrear o modelo de prompt separado em um caso de uso de IA, a implementação separada será incluída no caso de uso.

Rastreando uma implementação separada

Avaliando uma implementação separada em um espaço

As seções a seguir descrevem como avaliar implementações separadas em espaços e revisar seus resultados de avaliação:

Avaliando implementações desconectadas em espaços de pré-produção

Executar avaliação

Para executar avaliações de modelo de prompt, é possível clicar em Avaliar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Executar avaliação do modelo de prompt externo

Selecionar dimensões

O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Selecionar dimensões de llm externas para avaliar

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Configurar avaliações de llm externas

Selecionar dados de teste

Você deve enviar um arquivo ` CSV ` que contenha dados de teste com colunas de referência que incluam a entrada e a saída esperada do modelo. Os dados de teste que você enviar devem conter a saída do modelo em uma coluna chamada generated_text para permitir avaliações de implantação independentes.

Quando o upload for concluído, você também deverá mapear as variáveis de prompt para as colunas correspondentes dos seus dados de teste. Selecione dados de teste de LLM externos para fazer upload

Revisar e avaliar

É possível revisar as seleções para o tipo de tarefa de prompt, os dados de teste transferidos por upload e o tipo de avaliação executado. Deve-se selecionar Avaliar para executar a avaliação

Revisar e avaliar configurações de avaliação do modelo de prompt desconectado

Revisando resultados da avaliação

Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...

Para analisar os resultados, você pode clicar na seta seta de navegação ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados

O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:

  • Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
  • Todas as avaliações: exiba um histórico de suas avaliações para entender como seus resultados mudam com o tempo.
  • Configurar monitores: configure limites de avaliação e tamanhos de amostra.
  • Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Analisar resultados da avaliação do modelo de prompt desconectado

Avaliando implementações desconectadas em espaços de produção

Ativar avaliação

Para executar avaliações de modelo de prompt, é possível clicar em Ativar na guia Avaliações ao abrir uma implementação para abrir o assistente Avaliar modelo de prompt . Será possível executar avaliações somente se você tiver designado as funções Admin ou Editor para seu espaço de implementação..

Executar avaliação do modelo de prompt desconectado

Se você não tiver uma instância watsonx.governance associada ao seu espaço de implementação, deverá selecionar Associar uma instância de serviço na caixa de diálogo Associar uma instância de serviço antes de poder executar avaliações. Na janela Associar instância para avaliação , deve-se escolher a instância watsonx.governance que deseja usar e selecionar Associar uma instância de serviço para associar uma instância ao seu espaço de implementação. Deve-se estar designado à função Admin para o seu espaço de implementação para associar instâncias

Associar a instância watsonx.governance

Se você não tiver um banco de dados associado à sua instância watsonx.governance , também deverá associar um banco de dados antes de poder executar avaliações. Para associar um banco de dados, você também deve clicar em Associar banco de dados na caixa de diálogo Banco de dados necessário para se conectar a um banco de dados. Deve-se ter designado a função Administrador para o seu espaço de implementação e a instância watsonx.governance para associar bancos de dados

Selecionar dimensões

O assistente Modelo de prompt de avaliação exibe as dimensões que estão disponíveis para avaliar para o tipo de tarefa que está associado ao seu prompt É possível fornecer um nome de coluna de rótulo para a saída de referência especificada em seus dados de feedback. Também é possível expandir as dimensões para visualizar a lista de métricas que são usadas para avaliar as dimensões selecionadas.

Selecionar dimensões a serem avaliadas

Watsonx.governance configura automaticamente as avaliações para cada dimensão com configurações padrão. Para configurar avaliações com configurações diferentes, é possível selecionar Configurações avançadas para configurar tamanhos mínimos de amostra e valores de limite para cada métrica, conforme mostrado no exemplo a seguir:

Configurar avaliações

Revisar e avaliar

É possível revisar as seleções para o tipo de tarefa de prompt e o tipo de avaliação executado. Também é possível selecionar Visualizar esquema de carga útil ou Visualizar esquema de feedback para validar que seus nomes de colunas correspondem aos nomes de variável de prompt no modelo de prompt. Deve-se selecionar Ativar para executar a avaliação

Revisar e avaliar seleções

Para gerar resultados de avaliação, selecione Avaliar agora no menu Ações para abrir a janela Importação de dados de teste quando a página de resumo de avaliação for exibida

Selecione avaliar agora

Importar dados de teste

Na janela “Importar dados de teste ”, você pode selecionar “Carregar dados de carga útil” ou “Carregar dados de feedback” para carregar um arquivo ` CSV ` que contenha colunas identificadas que correspondam às colunas dos esquemas de carga útil e de feedback.

Importar dados de teste

Revisando resultados da avaliação

Quando sua avaliação for concluída, será possível revisar um resumo de seus resultados de avaliação na guia Avaliações em watsonx.governance para obter insights sobre o desempenho do modelo. O resumo fornece uma visão geral de pontuações de métrica e violações de limite de pontuação padrão para suas avaliações de modelo de prompt...

Para analisar os resultados, você pode clicar na seta seta de navegação ao lado da avaliação do seu modelo de prompt para visualizar os dados dos resultados ao longo do tempo. Também é possível analisar os resultados da avaliação de funcionamento do modelo que é executada por padrão durante as avaliações de modelo de prompt para entender com que eficiência seu modelo processa seus dados

O menu Ações também fornece as opções a seguir para ajudar a analisar seus resultados:

  • Avaliar agora: execute a avaliação com um conjunto de dados de teste diferente
  • Configurar monitores: configure limites de avaliação e tamanhos de amostra.
  • Visualizar informações de modelo: visualize detalhes sobre seu modelo para entender como seu ambiente de implementação está configurado...

Analisar resultados da avaliação do modelo de prompt desconectado

Se você estiver acompanhando a implantação destacada em um caso de uso de IA, os detalhes sobre o modelo e os resultados da avaliação serão registrados em uma planilha que poderá ser visualizada.