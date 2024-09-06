Los componentes de código abierto desempeñan un papel crítico en la cadena de suministro de la IA. Solo las empresas más grandes tienen acceso a las enormes cantidades de datos necesarias para entrenar un modelo desde cero, por lo que tienen que depender en gran medida de conjuntos de datos de código abierto como LAION 5B o Common Corpus. El gran tamaño de estos conjuntos de datos también significa que es extremadamente difícil mantener la calidad de los datos y el cumplimiento de las leyes de derechos de autor y privacidad. Por el contrario, muchos modelos de IA generativa dominantes, como ChatGPT, son cajas negras en el sentido de que utilizan sus propios conjuntos de datos curados. Esto conlleva su propio conjunto de retos en materia de seguridad.

Los modelos verticalizados y patentados pueden perfeccionar los modelos fundacionales de código abierto con un entrenamiento adicional utilizando sus propios conjuntos de datos. Por ejemplo, una empresa que desarrolle un chatbot de atención al cliente de próxima generación podría utilizar sus registros anteriores de comunicaciones con los clientes para crear un modelo adaptado a sus necesidades específicas. Estos datos han sido durante mucho tiempo un objetivo para los ciberdelincuentes, pero el meteórico ascenso de la IA generativa la ha hecho aún más atractiva para los actores nefastos.

Al dirigirse a estos conjuntos de datos, los ciberdelincuentes pueden envenenarlos con desinformación o códigos y datos maliciosos. Luego, una vez que esa información comprometida entra en el proceso de entrenamiento del modelo de IA, empezamos a ver un efecto dominó que abarca todo el ciclo de vida del software de IA. Puede llevar miles de horas y una gran cantidad de potencia informática para entrenar un modelo de lenguaje de gran tamaño (LLM). Es una tarea enormemente costosa, tanto desde el punto de vista financiero como medioambiental. Sin embargo, si los conjuntos de datos utilizados en el entrenamiento se han visto comprometidos, es probable que todo el proceso tenga que empezar de cero.