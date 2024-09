Mi opinión es que si el 80 por ciento de nuestro trabajo es la preparación de datos, entonces garantizar la calidad de los datos es el trabajo importante de un equipo de aprendizaje automático. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/

Data Quality for AI de IBM Research Este marco de Data Quality for AI (o DQAI, para abreviar) proporciona todas las herramientas para permitir a los desarrolladores de modelos y científicos de datos implementar un programa formalizado y sistemático de preparación de datos, el paso preliminar y más lento del ciclo de vida del desarrollo de modelos. Este marco es adecuado para los datos que se preparan para tareas de clasificación o regresión supervisadas. Incluye el software necesario para:



— implementar comprobaciones de calidad,

— ejecutar correcciones,

— generar informes de auditoría,

— automatizar todo lo anterior.



Aunque la canalización de tareas es esencial para la escalabilidad y la repetibilidad, las funciones incluidas también pueden utilizarse para la exploración personalizada de datos y la mejora de modelos guiada por humanos. La utilización de los servicios incluidos puede ser productiva en cualquier etapa del ciclo de vida del desarrollo del modelo; la oferta está diseñada para ser especialmente valiosa al principio del procesamiento de datos, en la etapa de preparación de datos.



Además de todo lo que se puede hacer con las fuentes de datos originales, existen métodos que, partiendo de un conjunto de datos de entrada, pueden ayudar a sintetizar nuevos datos (ya sea para complementarlos o para sustituirlos) aprendiendo las restricciones de los datos originales o haciendo que un desarrollador las especifique. Esto puede ser útil cuando los problemas regulatorios o contractuales prohíben el uso directo de datos en un esfuerzo de modelado, cuando se desea explorar conjuntos de datos con diferentes restricciones o cuando se necesitan más datos para el entrenamiento.



Esta oferta es apropiada para su uso en datos tabulares y de series de tiempo y en nuevas modalidades compatibles que se están desarrollando.





Capacidades Validación de datos Puntajes de calidad e insights sobre estos, incluso señalando regiones específicas de datos responsables de reducir la puntuación y recomendar cómo se pueden mejorar dichas regiones de datos. Corrección de datos Ejecute las recomendaciones proporcionadas por los métodos de análisis de calidad. El kit de herramientas admite una variedad de tipos de datos, incluidos datos tabulares y de series temporales. Restricciones de datos El sistema puede aprender o el usuario puede especificar características de los datos (por ejemplo, límites, vacíos, etc.). Síntesis de datos Genere un nuevo conjunto de datos que tenga las características y distribuciones del primero. Pipelining Combine validadores y correctores junto con restricciones para abordar un caso de uso o flujo de trabajo de la aplicación genera una puntuación general de calidad de datos. Informes Documentación automatizada de los cambios que registra las métricas de calidad y las transformaciones de datos aplicadas

¿Qué beneficios puedo obtener en mis operaciones de modelado? Herramientas completas y compatibles La calidad de datos para IA sirve como una única fuente compatible para muchos algoritmos disponibles al público, así como métodos novedosos desarrollados exclusivamente por IBM Research. Ahorros en tiempo y costo Reduzca el tiempo de creación de valor para un esfuerzo de modelado reduciendo el número de intentos de experimentos y regresiones realizadas en tareas posteriores. Operaciones formalizadas y simplificadas Reduzca la barrera para la adopción de la IA en toda la empresa proporcionando herramientas para formalizar y simular el proceso de preparación de datos. Estandarización y coordinación del equipo Mejoras transversales en la eficiencia operativa y la productividad para los siguientes roles definidos: administrador de IA, científico de datos, experto en la materia, funcionario de riesgos de IA, usuario de negocios.