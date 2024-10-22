Las organizaciones tienen todo un nuevo pipeline de proyectos en construcción que aprovechan la IA generativa. Durante la fase de recopilación y gestión de datos, es necesario recopilar enormes volúmenes de datos para alimentar el modelo y se da acceso a varias personas diferentes, incluidos científicos de datos, ingenieros, desarrolladores y otros. Esto presenta un riesgo inherente al centralizar todos esos datos en un solo lugar y dar acceso a ellos a muchas personas. Esto significa que la IA generativa es un nuevo tipo de almacén de datos que puede crear nuevos datos basándose en datos existentes de la organización. Ya sea que haya entrenado el modelo, lo haya ajustado o lo haya conectado a una RAG (Vector DB), es probable que esos datos contengan información personal, problemas de privacidad y otro tipo de información confidencial. Este montón de datos confidenciales es un objetivo rojo parpadeante al que los atacantes van a intentar acceder.

Dentro del desarrollo de modelos, las nuevas aplicaciones se están construyendo de una forma totalmente nueva con nuevas vulnerabilidades que se convierten en nuevos puntos de entrada que los atacantes intentarán explotar. El desarrollo suele empezar cuando los equipos de ciencia de datos descargan y reutilizan modelos de aprendizaje automático de código abierto previamente entrenados de repositorios de modelos en línea como HuggingFace o TensorFlow Hub. Los repositorios de compartición de modelos de código abierto han surgido de la complexidad inherente a la ciencia de datos, la escasez de profesionales y el valor que aportan a las organizaciones al reducir drásticamente el tiempo y esfuerzo requeridos para la adopción de la IA generativa. Sin embargo, estos repositorios pueden carecer de controles de seguridad integrales, que en última instancia trasladan el riesgo a la empresa, y los atacantes cuentan con ello. Pueden inyectar una puerta trasera o malware en uno de estos modelos y volver a cargar el modelo infectado en los repositorios de intercambio de modelos, afectando a cualquiera que lo descargue. La escasez general de seguridad en torno a los modelos de ML, junto con los datos cada vez más sensibles a los que están expuestos los modelos de ML, significa que los ataques dirigidos a estos modelos tienen una alta propensión a causar daños.

Y durante la inferencia y el uso en vivo, los atacantes pueden manipular las instrucciones para escapar de las barreras de seguridad y convencer a los modelos para que se comporten mal generando respuestas no permitidas a instrucciones dañinas, incluyendo información sesgada, falsa y otras informaciones tóxicas, causando daño reputacional. O bien, los atacantes pueden manipular el modelo y analizar pares de entrada-salida para entrenar un modelo sustituto que imite el comportamiento del modelo objetivo, "robando" efectivamente sus capacidades, lo que le cuesta a la empresa su ventaja competitiva.