Le processus commence par la collecte de données conversationnelles. Cela peut impliquer de multiples sources de données, notamment des journaux de discussions, des enregistrements d’appels, des interactions par e-mail, des messages sur les réseaux sociaux et des interactions avec des assistants vocaux. Une fois les données client collectées (une transcription est nécessaire pour les données vocales), elles font l’objet d’un pré-traitement pour nettoyer et normaliser le texte, en éliminant le bruit et les informations non pertinentes. Cette étape implique des tâches telles que la tokenisation (fractionner le texte en mots ou en phrases), tout écrire en minuscule et la suppression des mots vides (mots courants tels que « et », « le », etc.).