Muchas fases del proceso de minería de datos utilizan gráficos y diagramas para explorar los datos introducidos en IBM® SPSS Modeler. Por ejemplo, puede conectar un nodo Gráfico o Distribución a un origen de datos para comprender mejor los tipos de datos y las distribuciones. A continuación puede llevar a cabo manipulaciones de registros y campos para preparar los datos para las operaciones de modelado posteriores de la ruta. Otro uso común de los gráficos consiste en comprobar la distribución y las relaciones entre campos recién derivados.
La paleta Gráficos contiene los siguientes nodos:
|
|
El nodo Tablero ofrece muchos tipos diferentes de gráficos en un único nodo. Con este nodo puede seleccionar los campos de datos que desee explorar y seleccionar un gráfico de los disponibles para los datos seleccionados. El nodo filtra automáticamente cualquier tipo de gráfico que no sea compatible con las selecciones de campo.
|
|
|
El nodo Gráfico muestra la relación entre los campos numéricos. Puede crear un gráfico mediante puntos (un diagrama de dispersión) o líneas.
|
|
|
El nodo Distribución muestra las instancias de valores simbólicos (categóricos), como el tipo de hipoteca o el género. Normalmente, podría usar el nodo Distribución para mostrar los desequilibrios de los datos, que pueden rectificarse mediante el nodo Equilibrar antes de crear un modelo.
|
|
|
El nodo Histograma muestra las instancias de valores de los campos numéricos. Se suele utilizar para explorar los datos antes de las manipulaciones y la generación de modelos. Al igual que con el nodo Distribución, con frecuencia el nodo Histograma detecta desequilibrios en los datos.
|
|
|
El nodo Colección muestra la distribución de valores de un campo numérico relativo a los valores de otro. (Crea gráficos parecidos a los histogramas.) Es útil para ilustrar una variable o un campo cuyos valores cambian con el tiempo. Con los gráficos 3D también puede incluir un eje simbólico que muestra las distribuciones por categoría.
|
|
|
El nodo G. múltiple crea un gráfico que muestra varios campos Y sobre un campo X único. Los campos Y están representados como líneas coloreadas; cada uno equivale a un nodo Gráfico con el estilo establecido en Línea y el Modo para X establecido en Ordenar.
Los gráficos múltiples son útiles cuando quiere explorar la fluctuación de varias variables a través del tiempo.
|
|
|
El nodo Malla muestra la fuerza de las relaciones entre los valores de dos o más campos simbólicos (categóricos). El gráfico utiliza líneas de varios anchos para indicar la fuerza de la conexión. Podría utilizar un nodo Malla, por ejemplo, para explorar las relaciones existentes entre la compra de un conjunto de elementos en un sitio de comercio electrónico.
|
|
|
El nodo Gráfico de tiempo muestra uno o más conjuntos de datos de series temporales. Normalmente, primero se utilizaría un nodo Intervalos de tiempo para crear un campo EtiquetaTiempo, que se utilizaría para etiquetar el eje x.
|
|
|
El nodo Evaluación ayuda a evaluar y comparar modelos predictivos. El diagrama de evaluación muestra la calidad con que los modelos predicen resultados particulares. Ordena registros en función del valor predicho y la confianza de la predicción. Divide el registro en grupos de igual tamaño (cuantiles) y, a continuación, representa el valor del criterio de negocio de cada cuantil de mayor a menor. Los diversos modelos se muestran como líneas separadas en el gráfico.
|
|
|
El nodo Visualización de mapas puede aceptar varias conexiones de entrada y visualizar datos geoespaciales en un mapa como una serie de capas. Cada capa es un único campo geoespacial; por ejemplo, la capa base podría ser el mapa de un país, y por encima puede tener una capa de carreteras, una capa de ríos y una capa de ciudades. |
|
|
El nodo Gráfico electrónico (Beta) muestra la relación entre campos numéricos. Es similar al nodo Gráfico, pero sus opciones difieren y su salida utiliza una nueva interfaz de gráficos específica a este nodo. Utilice el nodo de nivel beta para probar las nuevas características de gráficos. |
|
|
t-SNE (vecino estocástico con t distribuida incorporado) es una herramienta para visualizar datos de alta
dimensión. Convierte afinidades de puntos de datos a probabilidades. Este nodo t-SNE en SPSS Modeler
se implementa en Python y requiere la biblioteca scikit-learn© Python. |
Una vez añadido un nodo de gráficos a una ruta, puede pulsar dos veces en el nodo para abrir un cuadro de diálogo para especificar opciones. La mayoría de los gráficos contienen un número de opciones exclusivas presentadas en una o varias pestañas. También existen varias opciones de pestaña comunes a todos los gráficos. Los siguientes temas
contienen más información acerca de estas opciones comunes.
Una vez configuradas las opciones de un nodo de gráficos, puede ejecutarlo desde el cuadro de diálogo o como parte de una ruta. En la ventana del gráfico que se genera, puede crear nodos Derivar (Conjunto y Marca) y Seleccionar basados en una selección o región de datos, estableciendo los datos en subconjuntos de forma eficaz. Por ejemplo, puede utilizar esta potente característica para identificar y excluir valores atípicos.