Los modelos de lenguaje de gran tamaño (LLM) de código abierto son muy apreciados porque facilitan que cualquiera los modifique y utilice. Pero los beneficios del código abierto se pierden si preparar los datos necesarios para entrenar y ajustar los modelos es costoso y requiere mucho tiempo.
"Toda conversación en IA comienza con modelos y, en realidad, termina con datos", dice Petros Zerfos, científico investigador principal de ingeniería de datos para IA generativa en IBM Research. Para las empresas, eso a menudo significa que los equipos de IA dedican más tiempo a preparar los datos para los modelos que a los propios modelos, afirma Zerfos.
¿La solución? Algunas grandes empresas tecnológicas están creando herramientas de preparación de datos de código abierto. Por ejemplo, el Data Prep Kit de IBM y el NVIDIA NeMo Curator facilitan a empresas de todos los tamaños entrenar y afinar LLM, permitiéndoles obtener valor de las aplicaciones de IA de forma más rápida y rentable.
Mientras las empresas compiten por desarrollar e implementar LLM y aplicaciones de IA, uno de los mayores cuellos de botella es la preparación de los datos. De hecho, el 79 % de los equipos de IA empresarial encuestados en el informe de Gartner de 2023 Explore Data-Centric AI Solutions to Streamline AI Development afirmaron que la tarea estratégica más común que realizan es la preparación de los datos.
La preparación de los datos generalmente se realiza durante dos etapas clave en el desarrollo de los LLM. En la etapa de preentrenamiento, los modelos se entrenan con cientos de terabytes de datos para que puedan comprender un lenguaje sencillo y adquirir suficientes conocimientos y matices en varios dominios. Según Zerfos, preentrenar modelos desde cero requiere cientos de personas y millones de dólares, por lo que solo las empresas muy grandes —o unas pocas startups bien capitalizadas— tienen los recursos para hacerlo.
En la segunda etapa de la preparación de los datos, los equipos de IA utilizan volúmenes más pequeños de datos específicos para afinar LLM y generar textos más precisos y relevantes. Algunas empresas muy grandes con recursos suficientes realizan ambas fases, pero la mayoría se centra en la preparación de datos para afinar modelos que ya han sido construidos por otros.
Varias empresas, incluidas IBM y NVIDIA, han creado recientemente herramientas de código abierto para ayudar a los desarrolladores a abordar la ardua tarea de la preparación de los datos no estructurados. El Data Prep Kit de IBM es una biblioteca de módulos que un desarrollador puede integrar en su pipeline para seleccionar datos tanto en la fase de preentrenamiento como en la fase de ajuste fino. Los módulos funcionan con documentos de origen que contienen datos no estructurados, como texto (por ejemplo, un PDF) y código (HTML), y se pueden utilizar para anotar, transformar y filtrar los datos.
El equipo de IBM hizo que el código de estas herramientas fuera código abierto para hacerlas accesibles a empresas de todos los tamaños, dice Zerfos. "El desarrollador no necesita hacer nada especial, ya sea que lo ejecute en un ordenador portátil, un servidor o un clúster", dice. “También puede ejecutarse en cualquier infraestructura de nube”.
Desde su lanzamiento en mayo de 2024, los desarrolladores han estado experimentando con el marco Data Prep Kit y sus módulos, que son accesibles a través de GitHub. Varios miembros de la AI Alliance, una comunidad que incluye a empresas de tecnología grandes y pequeñas, también han empezado a probar cómo ciertos módulos pueden agilizar y acelerar la formación y el ajuste, afirma Zerfos.
El gigante de hardware y software de IA NVIDIA también ha pasado a código abierto recientemente una serie de módulos de preparación de los datos para mejorar la precisión de los modelos de IA generativa. NVIDIA NeMo Curator procesa datos de texto, imágenes y vídeo a escala. También proporciona pipelines prediseñados para generar datos sintéticos para personalizar y evaluar sistemas de IA generativa.
Una de las tareas que NeMo Curator de NVIDIA promete acelerar es la deduplicación. Al descargar datos de fuentes masivas de rastreo web como Common Crawl, es típico que el modelo encuentre documentos que son duplicados exactos entre sí y documentos que son casi duplicados.
Gracias a una próxima versión de NeMo Curator, los desarrolladores de la herramienta afirman que las organizaciones podrán completar esta tarea de deduplicación 20 veces más rápido y cinco veces más barato de lo que lo hacen actualmente.
Sin duda, el código abierto de estas herramientas hace que sean más accesibles. Sin embargo, los equipos empresariales de IA siguen necesitando un cierto nivel de habilidad y formación para generar valor a partir de estas herramientas, advierten expertos como Mark A. Beyer, distinguido vicepresidente analista de Gartner.
"Simplemente dar a alguien una herramienta sin orientación, metodologías y funciones para respaldarla comienza a convertirse en experimentación", dice. "Puede llevar de cuatro a cinco veces más tiempo que simplemente aprovechar las herramientas existentes".
De cara al futuro, sin embargo, Ben Lorica, presentador del pódcast The Data Exchange, ve un gran potencial para las herramientas de preparación de los datos a medida que las empresas aumentan su uso de datos multimodales, aunque aún sea pronto.
"A medida que sus aplicaciones dependan de una cantidad cada vez mayor de vídeo y audio además de texto, necesitará algún tipo de herramienta que le permita escalar y utilizar conjuntos de datos más grandes y beneficiarse de cualquier hardware que tenga", afirma. "Especialmente en el mundo de los agentes, los datos serán un diferenciador. "Quiere acceso a los datos adecuados en el momento oportuno."