Création d'alertes intelligentes pour les applications d'IA générative

Configurez des alertes intelligentes pour surveiller vos applications d'IA générative et recevoir des notifications lorsque des indicateurs tels que l'utilisation des jetons, les coûts ou les volumes de requêtes dépassent les seuils définis.

Les alertes intelligentes vous aident à surveiller de manière proactive les performances et les coûts de vos applications d'IA générative. Vous pouvez créer des alertes basées sur divers indicateurs tels que la consommation de jetons, les coûts d' API et les taux de requêtes. En filtrant et en regroupant les alertes par service ou par modèle, vous pouvez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.

Création d'une alerte intelligente

Pour créer une alerte intelligente pour votre application d'IA générative, procédez comme suit :

Étape 1 : Accédez à Smart Alerts

  1. Dans le menu de navigation de l'interface utilisateur d' Instana, sélectionnez Infrastructure.

  2. Cliquez sur l'onglet Alertes intelligentes.

  3. Cliquez sur Créer une alerte intelligente.

La boîte de dialogue de configuration de Smart Alert s'ouvre.

Étape 2 : Sélectionnez le type d'entité

Dans la liste déroulante Type d'entité, sélectionnez l'application GenAI.

Cette sélection garantit que l'alerte surveille les métriques spécifiques à vos applications d'IA générative.

Étape 3 : Choisissez les indicateurs à surveiller

Dans la section Métriques, sélectionnez la métrique que vous souhaitez surveiller. Les indicateurs suivants sont disponibles pour les applications d'IA générative :

  • Jetons d'entrée : surveillez le nombre de jetons envoyés au LLM dans les invites

  • Jetons de sortie : surveillez le nombre de jetons générés par le LLM dans les réponses

  • Nombre total de jetons : surveillez le nombre combiné de jetons entrants et sortants

  • Coût des jetons d'entrée : surveillez le coût associé aux jetons d'entrée

  • Coût des jetons de sortie : surveillez le coût associé aux jetons de sortie

  • Coût total des jetons : surveillez le coût total des jetons entrants et sortants

  • Demandes : surveiller le nombre de demandes d' API s adressées au LLM

Sélectionnez la métrique la plus pertinente pour vos besoins de surveillance. Par exemple, si vous souhaitez contrôler les coûts, sélectionnez Coût total des jetons.

Étape 4 : Filtrer par service ou modèle

Pour surveiller une application ou un modèle d'IA générative spécifique, vous devez ajouter des filtres. Les filtres vous aident à restreindre la portée de votre alerte à des services ou modèles spécifiques.

Filtrage par nom de service

Pour filtrer par une application (service) d'IA générative spécifique :

  1. Dans la section Filtres, cliquez sur Ajouter un filtre.

  2. Dans le champ de filtre, recherchez. metric.tag.service_name

    Cet attribut apparaît dans la catégorie Autres de la liste déroulante. Vous pouvez également faire défiler la page jusqu'à la section Autres et le localiser à cet endroit.

  3. Sélectionnez l'opérateur (par exemple, equals).

  4. Entrez ou sélectionnez le nom de votre service (nom de l'application).

Le nom du service correspond au nom de l'application que vous avez spécifié lors de l'instrumentation de votre application d'IA générative.

Filtrage par modèle

Pour filtrer selon un modèle LLM spécifique :

  1. Dans la section Filtres, cliquez sur Ajouter un filtre.

  2. Dans le champ de filtre, recherchez. metric.tag.model_id

  3. Sélectionnez l'opérateur (par exemple, equals).

  4. Sélectionnez votre identifiant de modèle (par exemple, gpt-4, claude-3-opus).

Vous pouvez ajouter plusieurs filtres pour créer des conditions d'alerte plus spécifiques. Par exemple, vous pouvez filtrer à la fois par nom de service et par modèle afin de surveiller un modèle spécifique au sein d'une application particulière.

Étape 5 : Regrouper par service ou modèle (facultatif)

Le regroupement vous permet de créer une seule alerte qui surveille simultanément plusieurs services ou modèles. Lorsqu'un seuil est dépassé pour un membre du groupe, l'alerte est déclenchée.

Pour regrouper vos alertes : dans la section Regrouper par, sélectionnez l'une des options suivantes :

  • metric.tag.service_name: Regrouper par nom de service pour surveiller tous les services

  • metric.tag.model_id: Regrouper par modèle pour surveiller tous les modèles

Le regroupement est particulièrement utile lorsque vous souhaitez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.

Étape 6 : Terminer la configuration de l'alerte

Après avoir configuré le type d'entité, les métriques, les filtres et le regroupement pour votre application d'IA générative, vous devez terminer les étapes restantes de configuration des alertes. Ces étapes sont communes à toutes les alertes intelligentes dans Instana et comprennent :

  • Définition des valeurs seuils et des opérateurs

  • Configuration des seuils temporels et des fenêtres d'évaluation

  • Ajout de canaux d'alerte pour les notifications

  • Personnalisation des propriétés des alertes (titre, description, déclenchement de l'incident)

  • Ajout de charges utiles personnalisées (facultatif)

Pour obtenir des instructions détaillées sur la manière d'effectuer ces étapes de configuration, consultez la section Alertes intelligentes pour l'infrastructure.

Une fois la configuration terminée, cliquez sur Créer pour enregistrer votre alerte intelligente.

Exemple : Suivi des coûts sur plusieurs modèles

Cet exemple montre comment créer une alerte qui surveille le coût total des jetons pour tous les modèles d'une application d'IA générative spécifique.

Scénario : vous souhaitez être averti si N'IMPORTE QUEL modèle utilisé par votre application « customer-support-bot » dépasse 50 $ en coûts de jetons au cours d'une période d'une heure.

Configuration :

  1. Type d'entité : application GenAI

  2. Mesure : coût total des jetons

  3. Filtre : metric.tag.service_name égal à customer-support-bot

  4. Regrouper par : metric.tag.model_id

  5. Seuil : > 50 (critique)

  6. Seuil temporel : 1 heure, 1 infraction consécutive

  7. Canal d'alerte : votre canal de notification préféré

Avec cette configuration, vous recevez une seule alerte si un modèle (par exemple, GPT-4, Claude ou Gemini) utilisé par votre bot d'assistance client dépasse le seuil de coût de 50 $. Le regroupement par ID de modèle vous permet de surveiller tous les modèles à l'aide d'une seule alerte tout en identifiant le modèle spécifique qui a déclenché l'alerte.

Combinaison de filtres et regroupement

Vous pouvez combiner le filtrage et le regroupement pour obtenir des stratégies d'alerte plus granulaires :

  • Filtrer par service + Regrouper par modèle : surveiller tous les modèles dans une application spécifique

  • Filtrer par modèle + Regrouper par service : surveiller un modèle spécifique dans toutes les applications

  • Filtres multiples + Regroupement : créez des scénarios de surveillance complexes pour des cas d'utilisation spécifiques

Cette flexibilité vous permet de créer des configurations d'alerte qui correspondent à vos besoins opérationnels et à vos stratégies de gestion des coûts.