Validación de los datos en Data Refinery

En cualquier momento después de haber añadido datos a Data Refinert, puede validar los datos. Por lo general, querrá hacer esto en varios puntos en el proceso de refinamiento.

Para validar los datos:

  1. Desde Data Refinery, pulse la pestaña Perfil.

  2. Revise las métricas de cada columna haciendo clic en un gráfico de la pestaña Auditoría.

  3. Tome las acciones adecuadas, tal como se describe en las secciones siguientes, en función de lo que desea aprender.

Frecuencia

Para los datos nominales, la frecuencia es el número de veces que se produce un valor, o un valor en un intervalo especificado. Cada distribución de frecuencia (barra) muestra el recuento de valores exclusivos en una columna.

Revise la distribución de frecuencias para encontrar anomalías en los datos. Si desea limpiar los datos de esas anomalías, elimine simplemente los valores.

Estadísticas básicas

Las estadísticas básicas son una recopilación de datos cuantitativos. Para cada columna, estas estadísticas incluyen el mínimo, el máximo, la media y otras medidas.

Dependiendo del tipo de datos de una columna, las estadísticas de cada columna variarán. Por ejemplo, las estadísticas de una columna con un tipo de datos entero incluyen el mínimo, el máximo, la mediana, la media, la suma, la moda y otras medidas relevantes. Mientras que las estadísticas de una columna con un tipo de datos de cadena incluyen el mínimo, el máximo, el número de valores únicos, el modo y las métricas adicionales aplicables.

Información avanzada

Para las columnas con datos numéricos, también puede ver estadísticas más avanzadas como percentiles, desviación estándar, covarianza, asimetría y otras medidas.