Los datos válidos se encuentran dentro de los límites o rangos permitidos, se ajustan a los formatos de datos especificados, están libres de imprecisiones y se adhieren a los criterios de validación específicos de una organización.
La validación de datos es un paso establecido desde hace mucho tiempo en los flujos de trabajo de la gestión de datos; al fin y al cabo, los datos no válidos pueden causar estragos en el análisis de datos. Sin embargo, su urgencia e importancia se han multiplicado a medida que las organizaciones se dedican a niveles sin precedentes de recopilación de datos para impulsar las iniciativas de toma de decisiones basadas en los datos e inteligencia artificial (IA).
Hoy en día, las empresas acumulan de forma rutinaria grandes conjuntos de datos que contienen terabytes o petabytes de datos. Esta información proviene de diversas fuentes de datos, como dispositivos de Internet de las cosas (IoT) o redes sociales, y a menudo se mueve a almacenes de datos y otros sistemas de destino. Pero la información procedente de una amplia gama de fuentes, combinada con la escala de las migraciones de datos masivas, puede preparar el escenario para una serie de problemas: formatos incoherentes y discrepancias, datos duplicados, campos de datos incompletos, errores de introducción de datos e incluso envenenamiento de datos.
Estos problemas de calidad de los datos pueden comprometer la integridad de los datos y poner en peligro una toma de decisiones informada. Y los datos no válidos no solo causan quebraderos de cabeza a los analistas de datos, sino que también son un problema para los ingenieros, científicos de datos y otras personas que trabajan con modelos de IA.
Los modelos de IA, incluidos los modelos de machine learning y los modelos de IA generativa, requieren datos fiables y precisos para el entrenamiento y el rendimiento de los modelos. A medida que la implementación eficaz de la IA se convierte en una ventaja competitiva crítica, las empresas no pueden permitirse que los datos no válidos pongan en peligro sus esfuerzos de IA. Las empresas utilizan procesos de validación de datos para ayudar a garantizar que la calidad de los datos sea suficiente para su uso en análisis e IA.
Además, la validación de datos se ha vuelto cada vez más importante en relación con el cumplimiento normativo. Por ejemplo, la Ley de Inteligencia Artificial de la UE exige que la validación de datos para los sistemas de IA de "alto riesgo" esté sujeta a prácticas rigurosas de gobierno de datos.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La validación de datos implica el establecimiento y la aplicación de reglas empresariales y comprobaciones de validación de datos.
Aunque las diferentes organizaciones utilizan diferentes reglas y técnicas de validación de datos, los tipos más comunes de comprobaciones de validación de datos son:
Una comprobación de código determina si un valor de datos es válido comparándolo con una lista de valores aceptables. Algunos ejemplos son los códigos de país, los códigos del Sistema Internacional Normalizado del Libro (ISBN) y los códigos del Sistema de Clasificación Industrial Norteamericano (NAICS) para clasificar las empresas.
Las comprobaciones de coherencia confirman que los datos de entrada son lógicos y no entran en conflicto con otros valores. Por ejemplo, en una base de datos de parejas casadas, las fechas de sus compromisos deberían ser anteriores a las de su boda.
Un tipo de datos define el formato válido para los datos de una columna determinada. Los ejemplos de tipos de datos pueden incluir texto, numérico o fecha. Esta comprobación identifica cada valor que no coincide con el tipo de datos seleccionado en longitud, precisión o escala, o que infringe el tipo de datos especificado.
Las comprobaciones de formato se implementan para columnas que tienen requisitos específicos de formato de datos, como columnas para números de teléfono, correos electrónicos y fechas.
Las comprobaciones de rango determinan si los datos numéricos se encuentran dentro de un rango predefinido de valores mínimos y máximos. Por ejemplo, una columna de presiones aceptables de los neumáticos de un vehículo puede oscilar entre 30 y 35 libras por pulgada cuadrada.
Las comprobaciones de unicidad se aplican a las columnas en las que cada entrada de datos debe ser única y no hay valores duplicados.
Otras comprobaciones utilizadas para la validación de los datos son las comprobaciones de longitud (garantizar el número correcto de caracteres en un campo), las comprobaciones de presencia (garantizar que los campos obligatorios no estén en blanco) y la validación de esquemas (garantizar que los datos se ajustan a una estructura predefinida).
La validación de datos se menciona a menudo junto a la limpieza de datos, que es la corrección de errores e incoherencias en conjuntos de datos sin procesar. A veces, la validación de datos se considera un componente de la limpieza de datos, mientras que en otros casos se entiende como un proceso distinto.
Tanto la validación como la limpieza de datos son elementos de la gestión de la calidad de los datos (DQM), un conjunto de prácticas para mantener datos de alta calidad en una organización. Los procesos adicionales y complementarios de DQM incluyen la creación de perfiles de datos, la monitorización de la calidad de los datos y la gestión de metadatos.
Aunque la validación de datos se puede realizar manualmente, puede ser una tarea ardua y lenta. Hay diferentes herramientas de datos que pueden ayudar a los profesionales de datos a acelerar, automatizar y agilizar el proceso de validación de datos.
El software de hojas de cálculo como Microsoft Excel tiene funciones de validación de datos, como la capacidad de crear listas desplegables, fórmulas personalizadas y restringir las entradas a valores que cumplan reglas específicas. Por ejemplo, es posible que un usuario no pueda introducir un valor que no cumpla los límites de longitud del texto y los requisitos de formato. Los programas de hojas de cálculo son más eficaces para gestionar y validar conjuntos de datos más pequeños.
Los profesionales de datos pueden utilizar herramientas de código abierto y lenguajes de programación como Python y SQL para ejecutar scripts y automatizar el proceso de validación de datos. Los usuarios de Excel pueden utilizar el lenguaje de programación VBA (Visual Basic for Applications) para crear reglas de validación de datos personalizadas y automatizar los procesos de validación.
La integración de datos es el proceso de combinar y armonizar datos de múltiples fuentes en un formato unificado y coherente que pueda utilizarse para diversos fines analíticos, operativos y de toma de decisiones. La validación de datos es un paso común en el proceso de integración de datos. El enfoque de integración de datos ETL (extraer, transformar, cargar), en particular, es conocido por su rigurosa validación de datos.
Las soluciones de observabilidad de los datos supervisan el estado de los datos en todo el ecosistema de una organización y proporcionan paneles de control para su visibilidad. La monitorización continua y con IA puede detectar y resolver anomalías y otros problemas de los datos en casi en tiempo real. Las principales plataformas de integración de datos tienen característica de observabilidad de los datos.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.