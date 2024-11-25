Varias empresas, incluidas IBM y NVIDIA, han creado recientemente herramientas de código abierto para ayudar a los desarrolladores a abordar la ardua tarea de la preparación de los datos no estructurados. El Data Prep Kit de IBM es una biblioteca de módulos que un desarrollador puede integrar en su pipeline para seleccionar datos tanto en la fase de preentrenamiento como en la fase de ajuste fino. Los módulos funcionan con documentos de origen que contienen datos no estructurados, como texto (por ejemplo, un PDF) y código (HTML), y se pueden utilizar para anotar, transformar y filtrar los datos.

El equipo de IBM hizo que el código de estas herramientas fuera código abierto para hacerlas accesibles a empresas de todos los tamaños, dice Zerfos. "El desarrollador no necesita hacer nada especial, ya sea que lo ejecute en un ordenador portátil, un servidor o un clúster", dice. “También puede ejecutarse en cualquier infraestructura de nube”.

Desde su lanzamiento en mayo de 2024, los desarrolladores han estado experimentando con el marco Data Prep Kit y sus módulos, que son accesibles a través de GitHub. Varios miembros de la AI Alliance, una comunidad que incluye a empresas de tecnología grandes y pequeñas, también han empezado a probar cómo ciertos módulos pueden agilizar y acelerar la formación y el ajuste, afirma Zerfos.

El gigante de hardware y software de IA NVIDIA también ha pasado a código abierto recientemente una serie de módulos de preparación de los datos para mejorar la precisión de los modelos de IA generativa. NVIDIA NeMo Curator procesa datos de texto, imágenes y vídeo a escala. También proporciona pipelines prediseñados para generar datos sintéticos para personalizar y evaluar sistemas de IA generativa.

Una de las tareas que NeMo Curator de NVIDIA promete acelerar es la deduplicación. Al descargar datos de fuentes masivas de rastreo web como Common Crawl, es típico que el modelo encuentre documentos que son duplicados exactos entre sí y documentos que son casi duplicados.

Gracias a una próxima versión de NeMo Curator, los desarrolladores de la herramienta afirman que las organizaciones podrán completar esta tarea de deduplicación 20 veces más rápido y cinco veces más barato de lo que lo hacen actualmente.

Sin duda, el código abierto de estas herramientas hace que sean más accesibles. Sin embargo, los equipos empresariales de IA siguen necesitando un cierto nivel de habilidad y formación para generar valor a partir de estas herramientas, advierten expertos como Mark A. Beyer, distinguido vicepresidente analista de Gartner.

"Simplemente dar a alguien una herramienta sin orientación, metodologías y funciones para respaldarla comienza a convertirse en experimentación", dice. "Puede llevar de cuatro a cinco veces más tiempo que simplemente aprovechar las herramientas existentes".

De cara al futuro, sin embargo, Ben Lorica, presentador del pódcast The Data Exchange, ve un gran potencial para las herramientas de preparación de los datos a medida que las empresas aumentan su uso de datos multimodales, aunque aún sea pronto.

"A medida que sus aplicaciones dependan de una cantidad cada vez mayor de vídeo y audio además de texto, necesitará algún tipo de herramienta que le permita escalar y utilizar conjuntos de datos más grandes y beneficiarse de cualquier hardware que tenga", afirma. "Especialmente en el mundo de los agentes, los datos serán un diferenciador. "Quiere acceso a los datos adecuados en el momento oportuno."