Création d'alertes intelligentes pour les applications d'IA générative
Configurez des alertes intelligentes pour surveiller vos applications d'IA générative et recevoir des notifications lorsque des indicateurs tels que l'utilisation des jetons, les coûts ou les volumes de requêtes dépassent les seuils définis.
Les alertes intelligentes vous aident à surveiller de manière proactive les performances et les coûts de vos applications d'IA générative. Vous pouvez créer des alertes basées sur divers indicateurs tels que la consommation de jetons, les coûts d' API et les taux de requêtes. En filtrant et en regroupant les alertes par service ou par modèle, vous pouvez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.
Avant de commencer
Assurez-vous que votre application d'IA générative est instrumentée et qu'elle envoie des données télémétriques à Instana. Pour plus d'informations, consultez la section Prise en main de l'observabilité de l'IA générative.
Création d'une alerte intelligente
Pour créer une alerte intelligente pour votre application d'IA générative, procédez comme suit :
Étape 1 : Accédez à Smart Alerts
Dans le menu de navigation de l'interface utilisateur d' Instana, sélectionnez Infrastructure.
Cliquez sur l'onglet Alertes intelligentes.
Cliquez sur Créer une alerte intelligente.
La boîte de dialogue de configuration de Smart Alert s'ouvre.
Étape 2 : Sélectionnez le type d'entité
Dans la liste déroulante Type d'entité, sélectionnez l'application GenAI.
Cette sélection garantit que l'alerte surveille les métriques spécifiques à vos applications d'IA générative.
Étape 3 : Choisissez les indicateurs à surveiller
Dans la section Métriques, sélectionnez la métrique que vous souhaitez surveiller. Les indicateurs suivants sont disponibles pour les applications d'IA générative :
Jetons d'entrée : surveillez le nombre de jetons envoyés au LLM dans les invites
Jetons de sortie : surveillez le nombre de jetons générés par le LLM dans les réponses
Nombre total de jetons : surveillez le nombre combiné de jetons entrants et sortants
Coût des jetons d'entrée : surveillez le coût associé aux jetons d'entrée
Coût des jetons de sortie : surveillez le coût associé aux jetons de sortie
Coût total des jetons : surveillez le coût total des jetons entrants et sortants
Demandes : surveiller le nombre de demandes d' API s adressées au LLM
Sélectionnez la métrique la plus pertinente pour vos besoins de surveillance. Par exemple, si vous souhaitez contrôler les coûts, sélectionnez Coût total des jetons.
Étape 4 : Filtrer par service ou modèle
Pour surveiller une application ou un modèle d'IA générative spécifique, vous devez ajouter des filtres. Les filtres vous aident à restreindre la portée de votre alerte à des services ou modèles spécifiques.
Filtrage par nom de service
Pour filtrer par une application (service) d'IA générative spécifique :
Dans la section Filtres, cliquez sur Ajouter un filtre.
Dans le champ de filtre, recherchez.
metric.tag.service_nameCet attribut apparaît dans la catégorie Autres de la liste déroulante. Vous pouvez également faire défiler la page jusqu'à la section Autres et le localiser à cet endroit.
Sélectionnez l'opérateur (par exemple,
equals).Entrez ou sélectionnez le nom de votre service (nom de l'application).
Le nom du service correspond au nom de l'application que vous avez spécifié lors de l'instrumentation de votre application d'IA générative.
Filtrage par modèle
Pour filtrer selon un modèle LLM spécifique :
Dans la section Filtres, cliquez sur Ajouter un filtre.
Dans le champ de filtre, recherchez.
metric.tag.model_idSélectionnez l'opérateur (par exemple,
equals).Sélectionnez votre identifiant de modèle (par exemple,
gpt-4,claude-3-opus).
Vous pouvez ajouter plusieurs filtres pour créer des conditions d'alerte plus spécifiques. Par exemple, vous pouvez filtrer à la fois par nom de service et par modèle afin de surveiller un modèle spécifique au sein d'une application particulière.
Étape 5 : Regrouper par service ou modèle (facultatif)
Le regroupement vous permet de créer une seule alerte qui surveille simultanément plusieurs services ou modèles. Lorsqu'un seuil est dépassé pour un membre du groupe, l'alerte est déclenchée.
Pour regrouper vos alertes : dans la section Regrouper par, sélectionnez l'une des options suivantes :
metric.tag.service_name: Regrouper par nom de service pour surveiller tous les servicesmetric.tag.model_id: Regrouper par modèle pour surveiller tous les modèles
Le regroupement est particulièrement utile lorsque vous souhaitez surveiller plusieurs composants à l'aide d'une seule configuration d'alerte.
Étape 6 : Terminer la configuration de l'alerte
Après avoir configuré le type d'entité, les métriques, les filtres et le regroupement pour votre application d'IA générative, vous devez terminer les étapes restantes de configuration des alertes. Ces étapes sont communes à toutes les alertes intelligentes dans Instana et comprennent :
Définition des valeurs seuils et des opérateurs
Configuration des seuils temporels et des fenêtres d'évaluation
Ajout de canaux d'alerte pour les notifications
Personnalisation des propriétés des alertes (titre, description, déclenchement de l'incident)
Ajout de charges utiles personnalisées (facultatif)
Pour obtenir des instructions détaillées sur la manière d'effectuer ces étapes de configuration, consultez la section Alertes intelligentes pour l'infrastructure.
Une fois la configuration terminée, cliquez sur Créer pour enregistrer votre alerte intelligente.
Exemple : Suivi des coûts sur plusieurs modèles
Cet exemple montre comment créer une alerte qui surveille le coût total des jetons pour tous les modèles d'une application d'IA générative spécifique.
Scénario : vous souhaitez être averti si N'IMPORTE QUEL modèle utilisé par votre application « customer-support-bot » dépasse 50 $ en coûts de jetons au cours d'une période d'une heure.
Configuration :
Type d'entité : application GenAI
Mesure : coût total des jetons
Filtre :
metric.tag.service_nameégal àcustomer-support-botRegrouper par :
metric.tag.model_idSeuil :
>50 (critique)Seuil temporel : 1 heure, 1 infraction consécutive
Canal d'alerte : votre canal de notification préféré
Avec cette configuration, vous recevez une seule alerte si un modèle (par exemple, GPT-4, Claude ou Gemini) utilisé par votre bot d'assistance client dépasse le seuil de coût de 50 $. Le regroupement par ID de modèle vous permet de surveiller tous les modèles à l'aide d'une seule alerte tout en identifiant le modèle spécifique qui a déclenché l'alerte.
Combinaison de filtres et regroupement
Vous pouvez combiner le filtrage et le regroupement pour obtenir des stratégies d'alerte plus granulaires :
Filtrer par service + Regrouper par modèle : surveiller tous les modèles dans une application spécifique
Filtrer par modèle + Regrouper par service : surveiller un modèle spécifique dans toutes les applications
Filtres multiples + Regroupement : créez des scénarios de surveillance complexes pour des cas d'utilisation spécifiques
Cette flexibilité vous permet de créer des configurations d'alerte qui correspondent à vos besoins opérationnels et à vos stratégies de gestion des coûts.
Rubriques connexes
Pour configurer les seuils, les fenêtres temporelles, les canaux d'alerte et les propriétés, consultez la section Alertes intelligentes d'infrastructure.
Pour afficher les métriques et les traces de vos applications d'IA générative, consultez la section Affichage des données télémétriques.
Calcul des coûts - Comprendre comment les coûts des jetons sont calculés
Canaux d'alerte - Configurez les canaux de notification pour vos alertes