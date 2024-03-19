Estos ataques tienden a estar bien ocultos, lo que los hace efectivos y difíciles de detener. ¿Cómo se protege contra la inyección directa de instrucciones? Como señala el NIST, no se pueden detener por completo, pero las estrategias defensivas agregan cierta medida de protección. Para los creadores de modelos, el NIST sugiere asegurarse de que los conjuntos de datos se curan cuidadosamente. También sugiere entrenar el modelo sobre qué tipos de entradas señalan un intento de inyección de instrucciones y sobre cómo identificar las instrucciones adversarias.
Para la inyección indirecta de instrucciones, el NIST sugiere la participación humana para ajustar los modelos, lo que se conoce como aprendizaje por refuerzo a partir del feedback humano (RLHF). El RLHF ayuda a los modelos a alinearse mejor con los valores humanos que evitan comportamientos no deseados. Otra sugerencia es filtrar las instrucciones de las entradas recuperadas, lo que puede evitar la ejecución de instrucciones no deseadas de fuentes externas. El NIST sugiere además el uso de moderadores de LLM para ayudar a detectar ataques que no dependen de fuentes recuperadas para ejecutarse. Finalmente, el NIST propone soluciones basadas en la interpretabilidad. Eso significa que la trayectoria de predicción del modelo que reconoce entradas anómalas se puede utilizar para detectar y luego detener entradas anómalas.
La IA generativa y aquellos que deseen explotar sus vulnerabilidades continuarán alterando el panorama de la ciberseguridad.