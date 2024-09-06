Los componentes de código abierto desempeñan un papel crítico en la cadena de suministro de la IA. Solo las empresas más grandes tienen acceso a las grandes cantidades de datos necesarios para entrenar un modelo desde cero, por lo que tienen que depender en gran medida de conjuntos de datos de código abierto como LAION 5B o Common Corpus. El gran tamaño de estos conjuntos de datos también significa que es extremadamente difícil mantener la calidad de los datos y el cumplimiento de las leyes de derechos de autor y privacidad. Por el contrario, muchos modelos de IA generativa convencionales, como ChatGPT, son cajas negras en el sentido de que utilizan sus propios conjuntos de datos curados. Esto conlleva su propio conjunto de desafíos de seguridad.

Los modelos verticalizados y patentados pueden perfeccionar los modelos fundacionales de código abierto con entrenamiento adicional utilizando sus propios conjuntos de datos. Por ejemplo, una empresa que desarrolla un chatbot de atención al cliente de próxima generación podría utilizar sus registros anteriores de comunicaciones con los clientes para crear un modelo adaptado a sus necesidades específicas. Dichos datos han sido durante mucho tiempo un objetivo para los delincuentes cibernéticos, pero el ascenso meteórico de la IA generativa lo ha hecho aún más atractivo para los actores nefastos.

Al dirigirse a estos conjuntos de datos, los delincuentes cibernéticos pueden envenenarlos con desinformación o códigos y datos maliciosos. Luego, una vez que esa información comprometida ingresa al proceso de entrenamiento del modelo de IA, comenzamos a ver un efecto dominó que abarca todo el ciclo de vida del software de IA. Puede llevar miles de horas y una gran cantidad de potencia informática entrenar un modelo de lenguaje (LLM). Es una empresa enormemente costosa, tanto desde el punto de vista financiero como medioambiental. Sin embargo, si los conjuntos de datos utilizados en el entrenamiento se han visto comprometidos, es probable que todo el proceso tenga que empezar desde cero.