Herramientas de preparación de datos de código abierto para modelos lingüísticos de gran tamaño

Colega varón hablando con una colega mujer mientras señala datos en un gráfico.

Los modelos de lenguaje de gran tamaño (LLM) de código abierto reciben mucho cariño porque facilitan que cualquiera los modifique y utilice. Pero los beneficios del código abierto se pierden si preparar los datos necesarios para entrenar y ajustar los modelos es costoso y requiere mucho tiempo.

"Toda conversación en IA comienza con modelos y, en realidad, termina con datos", dice Petros Zerfos, científico investigador principal de ingeniería de datos para IA generativa en IBM Investigación. Para las empresas, eso a menudo significa que los equipos de IA dedican más tiempo a preparar los datos para los modelos que a los propios modelos, afirma Zerfos.

¿La solución? Algunas grandes empresas tecnológicas están creando herramientas de preparación de datos de código abierto. Por ejemplo, el Data Prep Kit de IBM y el NVIDIA NeMo Curator facilitan a compañías de todos los tamaños capacitar y afinar LLMs, permitiéndoles obtener valor de las aplicaciones de IA de forma más rápida y rentable.

El desafío de los datos

A medida que las empresas se apresuran a desarrollar y desplegar LLM y aplicaciones de IA, uno de los mayores cuellos de botella es la preparación de datos. De hecho, el 79 % de los equipos de IA empresarial encuestados en el informe Explorar Data-Centric IA Solutions to Streamline IA Development de Gartner 2023 dijeron que la tarea estratégica más común que realizan es la preparación de datos.

La preparación de datos generalmente se realiza durante dos etapas clave en el desarrollo de los LLMs. En la etapa de preentrenamiento, los modelos se entrenan con cientos de terabytes de datos para que puedan comprender un lenguaje sencillo y adquirir suficientes conocimientos y matices en varios dominios. Según Zerfos, los modelos de preentrenamiento desde cero requieren cientos de personas y millones de dólares, por lo que solo las empresas muy grandes, o unas pocas empresas emergentes bien capitalizadas, tienen los recursos para hacerlo.

En la segunda etapa de la preparación de datos, los equipos de IA utilizan volúmenes más pequeños de datos específicos para ajustar los LLM para que puedan generar texto más preciso y relevante. Algunas empresas muy grandes con amplios recursos hacen ambas fases, pero la mayoría de las empresas se centran en data preparation para ajustar modelos que ya han sido creados por otros.

Herramientas de preparación de datos de código abierto

Varias empresas, incluidas IBM y NVIDIA, han creado recientemente herramientas de código abierto para ayudar a los desarrolladores a abordar la ardua tarea de la preparación de datos no estructurados. El kit de preparación de datos de IBM es una biblioteca de módulos que un desarrollador puede conectar a su pipeline para curar datos en la etapa de preentrenamiento o ajuste.  Los módulos funcionan con documentos de origen que contienen datos no estructurados, como texto (por ejemplo, un PDF) y código (HTML), y se pueden utilizar para anotar, transformar y filtrar los datos.

El equipo de IBM ha convertido estas herramientas en código abierto para que sean accesibles a empresas de todos los tamaños, afirma Zerfos. "El desarrollador no necesita hacer nada especial, ya sea que lo ejecute en una computadora portátil, un servidor o un clúster", dice. “También puede ejecutarse en cualquier infraestructura en la nube”.

Desde su lanzamiento en mayo de 2024, los desarrolladores han estado experimentando con la infraestructura Data Prep Kit y sus módulos, accesibles a través de GitHub. Varios miembros de la Alianza IA, una comunidad que incluye empresas tecnológicas grandes y pequeñas, también han comenzado a probar cómo ciertos módulos pueden optimizar y acelerar la capacitación y el ajuste, dice Zerfos.

El gigante de hardware y software de IA NVIDIA también ha publicado recientemente una serie de módulos de preparación de datos para mejorar la precisión de los modelos de IA generativa. NVIDIA NeMo Curator procesa datos de texto, imágenes y video a escala. También proporciona pipelines predefinidos para generar datos sintéticos para personalizar y evaluar sistemas de IA generativa.

Una de las tareas que NeMo Curator de NVIDIA promete acelerar es la deduplicación. Al descargar datos de fuentes masivas de rastreo web como Common Crawl, es típico que el modelo encuentre tanto documentos que son duplicados exactos entre sí como documentos que son casi duplicados. 

Con una próxima versión de NeMo Curator, los desarrolladores de la herramienta dicen que las organizaciones podrán completar esta tarea de deduplicación 20 veces más rápido y cinco veces más barato de lo que lo hacen actualmente. 

Sin duda, el hecho de que estas herramientas sean de código abierto las hace más accesibles. Los equipos Enterprise de IA, sin embargo, aún necesitan un cierto nivel de habilidad y capacitación para generar valor a partir de estas herramientas, advierten expertos como Mark A. Beyer, distinguido vicepresidente analista de Gartner.

"Simplemente darle a alguien una herramienta sin orientación, metodologías y funciones para respaldarla comienza a convertirse en experimentación", dice. "Puede llevar de cuatro a cinco veces más tiempo que simplemente aprovechar las herramientas existentes".

De cara al futuro, sin embargo, Ben Lorica, presentador del podcast The Data Exchange , ve un gran potencial para las herramientas de preparación de datos a medida que las compañías aumentan su uso de datos multimodales, aunque aún sea pronto.

“A medida que sus aplicaciones dependen de una cantidad cada vez mayor de video y audio además de texto, necesitará algún tipo de herramienta que le permita escalar y utilizar conjuntos de datos más grandes y aprovechar cualquier hardware que tenga”, dice. “Especialmente en el mundo de los agentes, los datos serán un diferenciador. Quiere acceder a los datos correctos en el momento adecuado”.