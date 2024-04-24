Des chercheurs de Cornell Tech, l’Institut de Technologie d’Israël et Intuit, ont utilisé ce que l’on appelle une « invite contradictoire auto-répliquant » pour créer le ver. Il s’agit d’une invite qui, lorsqu’elle est intégrée à un grand modèle de langage (LLM) (ils l’ont testé sur ChatGPT d’OpenAI, Gemini de Google et le modèle open source LLaVA développé par des chercheurs de l’Université du Wisconsin-Madison, de Microsoft Research et de l’Université de Columbia), incite le modèle à créer une autre invite. Il déclenche le chatbot pour qu’il génère ses propres invites malveillantes, auxquels il répond ensuite en exécutant ces instructions (similaire à l’injection SQL et aux attaques par dépassement de tampon).

Le ver a deux capacités principales :

1. Exfiltration des données : le ver peut extraire des données personnelles sensibles des e-mails des systèmes infectés, notamment les noms, les numéros de téléphone, les informations de carte de crédit et les numéros de sécurité sociale.

2. Propagation de spam : le ver peut générer et envoyer des spams et d’autres e-mails malveillants via des assistants de messagerie alimentés par l’IA, ce qui l’aide à se propager et à infecter d’autres systèmes.

Les chercheurs ont réussi à démontrer ces capacités dans un environnement contrôlé, en montrant comment le ver pouvait s’infiltrer dans les écosystèmes d’IA générative et voler des données ou distribuer des logiciels malveillants. Le ver IA « Morris II » n’a jamais été observé dans la nature et les chercheurs ne l’ont pas testé sur un assistant d’e-mail accessible au public.

Ils ont découvert qu’ils pouvaient utiliser des invites auto-répliquantes dans les invites textuelles et les invites intégrées dans les fichiers d’images.