Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la validación de datos?

La validación de datos es el proceso de verificar que los datos estén limpios, que sean precisos y estén listos para su uso.
 

Los datos válidos se encuentran dentro de los límites o rangos permitidos, se ajustan a formatos de datos especificados, están libres de imprecisiones y se adhieren a los criterios de validación específicos de una organización.

La validación de datos es un paso establecido desde hace mucho tiempo en los flujos de trabajo de gestión de datos; después de todo, los datos no válidos pueden causar estragos en el análisis de datos. Sin embargo, su urgencia e importancia se ha multiplicado a medida que las organizaciones participan en niveles sin precedentes de recopilación de datos para potenciar la toma de decisiones basadas en datos y las iniciativas de inteligencia artificial (IA).

¿Por qué es importante la validación de datos?

Hoy en día, las empresas acumulan rutinariamente grandes conjuntos de datos que contienen terabytes o petabytes de datos. Esta información proviene de diversas fuentes de datos, como dispositivos del Internet de las cosas (IoT) o redes sociales, y a menudo se mueve a depósitos de datos y otros sistemas de destino. Pero la información procedente de una amplia gama de fuentes, combinada con la escala de las migraciones masivas de datos, puede preparar el escenario para una serie de problemas: formatos y discrepancias incoherentes, datos duplicados, campos de datos incompletos, errores de entrada de datos e incluso envenenamiento de datos.

Estos problemas de calidad de datos pueden comprometer la integridad de los datos y poner en peligro la toma de decisiones informada. Y los datos no válidos no solo generan dolores de cabeza a los analistas de datos; también son un problema para los ingenieros, científicos de datos y otros que trabajan con modelos de IA.

Los modelos de IA, incluidos los modelos de machine learning y los modelos de IA generativa, requieren datos confiables y precisos para el entrenamiento y el rendimiento del modelo. A medida que la implementación eficaz de la IA se convierte en una ventaja competitiva crítica, las empresas no pueden permitirse que los datos no válidos comprometan sus esfuerzos de IA. Las empresas utilizan procesos de validación de datos para ayudar a garantizar que la calidad de los datos sea suficiente para su uso en analytics de datos e IA.

Además, la validación de datos es cada vez más importante en relación con el cumplimiento de la normativa. Por ejemplo, la Ley de Inteligencia Artificial de la UE exige que la validación de datos para sistemas de IA de “alto riesgo” esté sujeta a prácticas rigurosas de gobernanza de datos.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona la validación de datos?

La validación de datos implica el establecimiento y la aplicación de reglas de negocio y controles de validación de datos.

Si bien las diferentes organizaciones utilizan diferentes reglas y técnicas de validación de datos, los tipos más comunes de comprobaciones de validación de datos son:

  • Comprobaciones de códigos
  • Comprobaciones de coherencia
  • Comprobaciones de tipos de datos
  • Comprobaciones de formatos
  • Comprobaciones de rangos
  • Comprobaciones de singularidad

Comprobaciones de códigos

Una comprobación de código determina si un valor de datos es válido comparándolo con una lista de valores aceptables. Algunos ejemplos incluyen códigos de país, códigos de International Standard Book Number (ISBN) y códigos del North American Industry Classification System (NAICS) para clasificar empresas.

Comprobaciones de coherencia

Las comprobaciones de coherencia confirman que los datos de entrada son lógicos y no entran en conflicto con otros valores. Por ejemplo, en una base de datos de parejas casadas, las fechas de sus compromisos deben ser anteriores a las fechas de su boda.

Comprobaciones de tipos de datos

Un tipo de datos define el formato válido para los datos de una columna determinada. Los ejemplos de tipos de datos pueden incluir texto, número o fecha. Esta comprobación identifica cada valor que no coincide con el tipo de datos seleccionado en longitud, precisión o escala, o que infringe el tipo de datos especificado.

Comprobaciones de formatos

Las comprobaciones de formatos se implementan para las columnas que tienen requisitos específicos de formato de datos, como columnas para números de teléfono, correos electrónicos y fechas.

Comprobaciones de rangos

Las comprobaciones de rangos determinan si los datos numéricos se encuentran dentro de un rango predefinido de valores mínimos y máximos. Por ejemplo, una columna de presiones aceptables de los neumáticos de un vehículo puede oscilar entre 30 y 35 libras por pulgada cuadrada.

Comprobaciones de singularidad

Las comprobaciones de singularidad se aplican a las columnas en las que cada entrada de datos debe ser única y no hay valores duplicados.

Otras comprobaciones empleadas para la validación de datos incluyen comprobaciones de longitud (garantizar el número correcto de caracteres en un campo); comprobaciones de presencia (garantizar que los campos obligatorios no estén en blanco); y validación de esquemas (garantizar que los datos se ajusten a una estructura predefinida).

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Validación de datos frente a limpieza de datos y gestión de calidad de datos

La validación de datos se menciona a menudo al mismo tiempo que la limpieza de datos, que es la corrección de errores e incoherencias en los conjuntos de datos sin procesar. A veces, la validación de datos se considera un componente de la limpieza de datos, mientras que en otros casos se conoce como un proceso distinto.

Tanto la validación de datos como la limpieza de datos son elementos de la gestión de calidad de datos (DQM), una colección de prácticas para mantener datos de alta calidad en una organización. Los procesos adicionales y complementarios de DQM incluyen la creación de perfiles de datos, el monitoreo de la calidad de los datos y la gestión de metadatos.

Herramientas de validación de datos

Si bien la validación de datos se puede realizar manualmente, puede ser una tarea ardua y que requiere mucho tiempo. Diferentes herramientas de datos pueden ayudar a los profesionales de datos a acelerar, automatizar y optimizar el proceso de validación de datos.

Software de hojas de cálculo

El software de hojas de cálculo como Microsoft Excel tiene una funcionalidad de validación de datos, como la capacidad de crear listas desplegables, fórmulas personalizadas y restringir entradas a valores que cumplan con reglas específicas. Por ejemplo, es posible que un usuario no pueda ingresar un valor que no cumpla con los límites de longitud del texto y los requisitos de formato. Los programas de hojas de cálculo son más eficaces para gestionar y validar conjuntos de datos más pequeños.

Scripts

Los profesionales de los datos pueden emplear herramientas de código abierto y lenguajes de programación como Python y SQL para ejecutar secuencias de comandos y automatizar el proceso de validación de datos. Los usuarios de Excel pueden emplear el lenguaje de programación VBA (Visual Basic for Applications) para crear reglas de validación de datos personalizadas y automatizar los procesos de validación.

Integración de datos

Las plataformas de integración de datos combinan y armonizan datos de múltiples fuentes en formatos unificados y coherentes que se pueden emplear para diversos fines analíticos, operativos y de toma de decisiones. La validación de datos es un paso común en el proceso de integración de datos. El enfoque de integración de datos ETL (extraer, transformar, cargar), en particular, es conocido por su rigurosa validación de datos.

Observabilidad de los datos

Las soluciones de observabilidad de los datos monitorean el estado de los datos en el ecosistema de datos de una organización y proporcionan un panel para la visibilidad. El monitoreo y el análisis continuos impulsados por IA pueden detectar y resolver anomalías de datos y otros problemas de datos casi en tiempo real. Las principales plataformas de integración cuentan con herramientas de observabilidad de los datos.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data