Création d'alertes intelligentes pour les applications d'IA générative

Modifier en ligne

Configurez des alertes intelligentes pour surveiller vos applications d'IA générative et recevoir des notifications lorsque des indicateurs tels que l'utilisation des jetons, les coûts ou les volumes de requêtes dépassent les seuils définis.

Les alertes intelligentes vous aident à surveiller de manière proactive les performances et les coûts de vos applications d'IA générative. Vous pouvez créer des alertes basées sur divers indicateurs tels que la consommation de jetons, les coûts d' API et les taux de requêtes. En filtrant et en regroupant les alertes par service ou par modèle, vous pouvez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.

Avant de commencer

Modifier en ligne

Assurez-vous que votre application d'IA générative est instrumentée et qu'elle envoie des données télémétriques à Instana. Pour plus d'informations, consultez la section Prise en main de l'observabilité de l'IA générative.

Création d'une alerte intelligente

Modifier en ligne

Pour créer une alerte intelligente pour votre application d'IA générative, procédez comme suit :

Étape 1 : Accédez à Smart Alerts

Modifier en ligne

Dans le menu de navigation de l'interface utilisateur d' Instana, sélectionnez Infrastructure.
Cliquez sur l'onglet Alertes intelligentes.
Cliquez sur Créer une alerte intelligente.

La boîte de dialogue de configuration de Smart Alert s'ouvre.

Étape 2 : Sélectionnez le type d'entité

Modifier en ligne

Dans la liste déroulante Type d'entité, sélectionnez l'application GenAI.

Cette sélection garantit que l'alerte surveille les métriques spécifiques à vos applications d'IA générative.

Étape 3 : Choisissez les indicateurs à surveiller

Modifier en ligne

Dans la section Métriques, sélectionnez la métrique que vous souhaitez surveiller. Les indicateurs suivants sont disponibles pour les applications d'IA générative :

Jetons d'entrée : surveillez le nombre de jetons envoyés au LLM dans les invites
Jetons de sortie : surveillez le nombre de jetons générés par le LLM dans les réponses
Nombre total de jetons : surveillez le nombre combiné de jetons entrants et sortants
Coût des jetons d'entrée : surveillez le coût associé aux jetons d'entrée
Coût des jetons de sortie : surveillez le coût associé aux jetons de sortie
Coût total des jetons : surveillez le coût total des jetons entrants et sortants
Demandes : surveiller le nombre de demandes d' API s adressées au LLM

Sélectionnez la métrique la plus pertinente pour vos besoins de surveillance. Par exemple, si vous souhaitez contrôler les coûts, sélectionnez Coût total des jetons.

Étape 4 : Filtrer par service ou modèle

Modifier en ligne

Pour surveiller une application ou un modèle d'IA générative spécifique, vous devez ajouter des filtres. Les filtres vous aident à restreindre la portée de votre alerte à des services ou modèles spécifiques.

Filtrage par nom de service

Modifier en ligne

Pour filtrer par une application (service) d'IA générative spécifique :

Dans la section Filtres, cliquez sur Ajouter un filtre.
Dans le champ de filtre, recherchez. metric.tag.service_name

Cet attribut apparaît dans la catégorie Autres de la liste déroulante. Vous pouvez également faire défiler la page jusqu'à la section Autres et le localiser à cet endroit.
Sélectionnez l'opérateur (par exemple, equals).
Entrez ou sélectionnez le nom de votre service (nom de l'application).

Le nom du service correspond au nom de l'application que vous avez spécifié lors de l'instrumentation de votre application d'IA générative.

Filtrage par modèle

Modifier en ligne

Pour filtrer selon un modèle LLM spécifique :

Dans la section Filtres, cliquez sur Ajouter un filtre.
Dans le champ de filtre, recherchez. metric.tag.model_id
Sélectionnez l'opérateur (par exemple, equals).
Sélectionnez votre identifiant de modèle (par exemple, gpt-4, claude-3-opus).

Vous pouvez ajouter plusieurs filtres pour créer des conditions d'alerte plus spécifiques. Par exemple, vous pouvez filtrer à la fois par nom de service et par modèle afin de surveiller un modèle spécifique au sein d'une application particulière.

Étape 5 : Regrouper par service ou modèle (facultatif)

Modifier en ligne

Le regroupement vous permet de créer une seule alerte qui surveille simultanément plusieurs services ou modèles. Lorsqu'un seuil est dépassé pour un membre du groupe, l'alerte est déclenchée.

Pour regrouper vos alertes : dans la section Regrouper par, sélectionnez l'une des options suivantes :

metric.tag.service_name: Regrouper par nom de service pour surveiller tous les services
metric.tag.model_id: Regrouper par modèle pour surveiller tous les modèles

Le regroupement est particulièrement utile lorsque vous souhaitez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.

Étape 6 : Terminer la configuration de l'alerte

Modifier en ligne

Après avoir configuré le type d'entité, les métriques, les filtres et le regroupement pour votre application d'IA générative, vous devez terminer les étapes restantes de configuration des alertes. Ces étapes sont communes à toutes les alertes intelligentes dans Instana et comprennent :

Définition des valeurs seuils et des opérateurs
Configuration des seuils temporels et des fenêtres d'évaluation
Ajout de canaux d'alerte pour les notifications
Personnalisation des propriétés des alertes (titre, description, déclenchement de l'incident)
Ajout de charges utiles personnalisées (facultatif)

Pour obtenir des instructions détaillées sur la manière d'effectuer ces étapes de configuration, consultez la section Alertes intelligentes pour l'infrastructure.

Une fois la configuration terminée, cliquez sur Créer pour enregistrer votre alerte intelligente.

Exemple : Suivi des coûts sur plusieurs modèles

Modifier en ligne

Cet exemple montre comment créer une alerte qui surveille le coût total des jetons pour tous les modèles d'une application d'IA générative spécifique.

Scénario : vous souhaitez être averti si N'IMPORTE QUEL modèle utilisé par votre application « customer-support-bot » dépasse 50 $ en coûts de jetons au cours d'une période d'une heure.

Configuration :

Type d'entité : application GenAI
Mesure : coût total des jetons
Filtre : metric.tag.service_name égal à customer-support-bot
Regrouper par : metric.tag.model_id
Seuil : > 50 (critique)
Seuil temporel : 1 heure, 1 infraction consécutive
Canal d'alerte : votre canal de notification préféré

Avec cette configuration, vous recevez une seule alerte si un modèle (par exemple, GPT-4, Claude ou Gemini) utilisé par votre bot d'assistance client dépasse le seuil de coût de 50 $. Le regroupement par ID de modèle vous permet de surveiller tous les modèles à l'aide d'une seule alerte tout en identifiant le modèle spécifique qui a déclenché l'alerte.

Combinaison de filtres et regroupement

Modifier en ligne

Vous pouvez combiner le filtrage et le regroupement pour obtenir des stratégies d'alerte plus granulaires :

Filtrer par service + Regrouper par modèle : surveiller tous les modèles dans une application spécifique
Filtrer par modèle + Regrouper par service : surveiller un modèle spécifique dans toutes les applications
Filtres multiples + Regroupement : créez des scénarios de surveillance complexes pour des cas d'utilisation spécifiques

Cette flexibilité vous permet de créer des configurations d'alerte qui correspondent à vos besoins opérationnels et à vos stratégies de gestion des coûts.

Création d'alertes intelligentes pour les applications d'IA générative

Avant de commencer

Création d'une alerte intelligente

Étape 1 : Accédez à Smart Alerts

Étape 2 : Sélectionnez le type d'entité

Étape 3 : Choisissez les indicateurs à surveiller

Étape 4 : Filtrer par service ou modèle

Filtrage par nom de service

Filtrage par modèle

Étape 5 : Regrouper par service ou modèle (facultatif)

Étape 6 : Terminer la configuration de l'alerte

Exemple : Suivi des coûts sur plusieurs modèles

Combinaison de filtres et regroupement

Rubriques connexes