Los datos válidos se encuentran dentro de los límites o rangos permitidos, se ajustan a formatos de datos especificados, están libres de imprecisiones y se adhieren a los criterios de validación específicos de una organización.
La validación de datos es un paso establecido desde hace mucho tiempo en los flujos de trabajo de gestión de datos; después de todo, los datos no válidos pueden causar estragos en el análisis de datos. Sin embargo, su urgencia e importancia se ha multiplicado a medida que las organizaciones participan en niveles sin precedentes de recopilación de datos para potenciar la toma de decisiones basadas en datos y las iniciativas de inteligencia artificial (IA).
Hoy en día, las empresas acumulan rutinariamente grandes conjuntos de datos que contienen terabytes o petabytes de datos. Esta información proviene de diversas fuentes de datos, como dispositivos del Internet de las cosas (IoT) o redes sociales, y a menudo se mueve a depósitos de datos y otros sistemas de destino. Pero la información procedente de una amplia gama de fuentes, combinada con la escala de las migraciones masivas de datos, puede preparar el escenario para una serie de problemas: formatos y discrepancias incoherentes, datos duplicados, campos de datos incompletos, errores de entrada de datos e incluso envenenamiento de datos.
Estos problemas de calidad de datos pueden comprometer la integridad de los datos y poner en peligro la toma de decisiones informada. Y los datos no válidos no solo generan dolores de cabeza a los analistas de datos; también son un problema para los ingenieros, científicos de datos y otros que trabajan con modelos de IA.
Los modelos de IA, incluidos los modelos de machine learning y los modelos de IA generativa, requieren datos confiables y precisos para el entrenamiento y el rendimiento del modelo. A medida que la implementación eficaz de la IA se convierte en una ventaja competitiva crítica, las empresas no pueden permitirse que los datos no válidos comprometan sus esfuerzos de IA. Las empresas utilizan procesos de validación de datos para ayudar a garantizar que la calidad de los datos sea suficiente para su uso en analytics de datos e IA.
Además, la validación de datos es cada vez más importante en relación con el cumplimiento de la normativa. Por ejemplo, la Ley de Inteligencia Artificial de la UE exige que la validación de datos para sistemas de IA de “alto riesgo” esté sujeta a prácticas rigurosas de gobernanza de datos.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La validación de datos implica el establecimiento y la aplicación de reglas de negocio y controles de validación de datos.
Si bien las diferentes organizaciones utilizan diferentes reglas y técnicas de validación de datos, los tipos más comunes de comprobaciones de validación de datos son:
Una comprobación de código determina si un valor de datos es válido comparándolo con una lista de valores aceptables. Algunos ejemplos incluyen códigos de país, códigos de International Standard Book Number (ISBN) y códigos del North American Industry Classification System (NAICS) para clasificar empresas.
Las comprobaciones de coherencia confirman que los datos de entrada son lógicos y no entran en conflicto con otros valores. Por ejemplo, en una base de datos de parejas casadas, las fechas de sus compromisos deben ser anteriores a las fechas de su boda.
Un tipo de datos define el formato válido para los datos de una columna determinada. Los ejemplos de tipos de datos pueden incluir texto, número o fecha. Esta comprobación identifica cada valor que no coincide con el tipo de datos seleccionado en longitud, precisión o escala, o que infringe el tipo de datos especificado.
Las comprobaciones de formatos se implementan para las columnas que tienen requisitos específicos de formato de datos, como columnas para números de teléfono, correos electrónicos y fechas.
Las comprobaciones de rangos determinan si los datos numéricos se encuentran dentro de un rango predefinido de valores mínimos y máximos. Por ejemplo, una columna de presiones aceptables de los neumáticos de un vehículo puede oscilar entre 30 y 35 libras por pulgada cuadrada.
Las comprobaciones de singularidad se aplican a las columnas en las que cada entrada de datos debe ser única y no hay valores duplicados.
Otras comprobaciones empleadas para la validación de datos incluyen comprobaciones de longitud (garantizar el número correcto de caracteres en un campo); comprobaciones de presencia (garantizar que los campos obligatorios no estén en blanco); y validación de esquemas (garantizar que los datos se ajusten a una estructura predefinida).
La validación de datos se menciona a menudo al mismo tiempo que la limpieza de datos, que es la corrección de errores e incoherencias en los conjuntos de datos sin procesar. A veces, la validación de datos se considera un componente de la limpieza de datos, mientras que en otros casos se conoce como un proceso distinto.
Tanto la validación de datos como la limpieza de datos son elementos de la gestión de calidad de datos (DQM), una colección de prácticas para mantener datos de alta calidad en una organización. Los procesos adicionales y complementarios de DQM incluyen la creación de perfiles de datos, el monitoreo de la calidad de los datos y la gestión de metadatos.
Si bien la validación de datos se puede realizar manualmente, puede ser una tarea ardua y que requiere mucho tiempo. Diferentes herramientas de datos pueden ayudar a los profesionales de datos a acelerar, automatizar y optimizar el proceso de validación de datos.
El software de hojas de cálculo como Microsoft Excel tiene una funcionalidad de validación de datos, como la capacidad de crear listas desplegables, fórmulas personalizadas y restringir entradas a valores que cumplan con reglas específicas. Por ejemplo, es posible que un usuario no pueda ingresar un valor que no cumpla con los límites de longitud del texto y los requisitos de formato. Los programas de hojas de cálculo son más eficaces para gestionar y validar conjuntos de datos más pequeños.
Los profesionales de los datos pueden emplear herramientas de código abierto y lenguajes de programación como Python y SQL para ejecutar secuencias de comandos y automatizar el proceso de validación de datos. Los usuarios de Excel pueden emplear el lenguaje de programación VBA (Visual Basic for Applications) para crear reglas de validación de datos personalizadas y automatizar los procesos de validación.
Las plataformas de integración de datos combinan y armonizan datos de múltiples fuentes en formatos unificados y coherentes que se pueden emplear para diversos fines analíticos, operativos y de toma de decisiones. La validación de datos es un paso común en el proceso de integración de datos. El enfoque de integración de datos ETL (extraer, transformar, cargar), en particular, es conocido por su rigurosa validación de datos.
Las soluciones de observabilidad de los datos monitorean el estado de los datos en el ecosistema de datos de una organización y proporcionan un panel para la visibilidad. El monitoreo y el análisis continuos impulsados por IA pueden detectar y resolver anomalías de datos y otros problemas de datos casi en tiempo real. Las principales plataformas de integración cuentan con herramientas de observabilidad de los datos.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.