Visión general (mandato MATCH FILES)

MATCH FILES combina variables de 2 a 50 IBM® SPSS® Statistics archivos de datos. MATCH FILES puede realizar coincidencias paralelas o no paralelas entre distintos archivos o realizar búsquedas de tabla. Las coincidencias paralelas combinan los archivos secuencialmente por caso (a veces se hace referencia a ellos como coincidencias secuenciales). Las coincidencias no paralelas combinan archivos de acuerdo con los valores de una o más variables clave. En una búsqueda de tabla, MATCH FILES busca variables en un archivo y transfiere esas variables a un archivo de caso.

Los archivos especificados en MATCH FILES pueden ser archivos de datos IBM SPSS Statistics o conjuntos de datos abiertos en la sesión actual. El archivo combinado se convierte en el nuevo conjunto de datos activo.

En general, MATCH FILES se utiliza para combinar archivos que contienen los mismos casos pero variables diferentes. Para combinar archivos que contienen las mismas variables pero diferentes casos, utilice ADD FILES. Para actualizar archivos de datos de IBM SPSS Statistics existentes, utilice UPDATE.

Opciones

Selección de variable. Puede especificar qué variables de cada archivo de entrada se incluyen en el nuevo conjunto de datos activo utilizando los subcomandos DROP y KEEP .

Nombres de variables. Puede cambiar el nombre de las variables en cada archivo de entrada antes de combinar los archivos utilizando el submandato RENAME . Esto le permite combinar variables que son iguales pero cuyos nombres difieren en diferentes archivos de entrada o separar variables que son diferentes pero tienen el mismo nombre.

Distintivo de variable. Puede crear una variable que indique si un caso procede de un archivo de entrada determinado utilizando IN. Puede utilizar los subcomandos FIRST o LAST para crear una variable que marque el primer o último caso de un grupo de casos con el mismo valor para la variable clave.

Mapa de variables. Puede solicitar una correlación que muestre todas las variables del nuevo conjunto de datos activo, su orden y los archivos de entrada de los que proceden utilizando el submandato MAP .

Especificación básica

La especificación básica son dos o más submandatos FILE , cada uno de los cuales especifica un archivo que debe coincidir. Además, BY es necesario para especificar las variables clave para coincidencias no paralelas. Tanto BY como TABLE son necesarios para que coincidan los archivos de búsqueda de tabla.

Todas las variables de todos los archivos de entrada se incluyen en el nuevo conjunto de datos activo a menos que se especifique DROP o KEEP .

Orden de submandatos

RENAME y IN deben ir inmediatamente después del submandato FILE o TABLE al que se aplican.
Los submandatos BY, FIRST, LAST, KEEP, DROPy MAP deben seguir a todos los submandatos TABLE, FILE, RENAMEy IN .

Reglas de sintaxis

RENAME se puede repetir después de cada submandato FILE o TABLE y sólo se aplica a las variables del archivo especificado en los FILE o TABLEinmediatamente anteriores.
IN sólo se puede utilizar para una coincidencia no paralela o para una búsqueda de tabla. (Por lo tanto, IN sólo se puede utilizar si se especifica BY .)
BY sólo se puede especificar una vez. Sin embargo, se pueden especificar varias variables en BY. Cuando se utiliza BY , todos los archivos deben ordenarse en orden ascendente de las variables clave denominadas en BY.
MAP se puede repetir con la frecuencia que desee.

Operaciones

MATCH FILES lee todos los archivos denominados en FILE o TABLE y crea un nuevo conjunto de datos activo.
- Si se incluye el conjunto de datos activo actual y se especifica con un asterisco (FILE=*), el nuevo conjunto de datos fusionado sustituye al conjunto de datos activo. Si ese conjunto de datos es un conjunto de datos con nombre, el conjunto de datos fusionado conserva ese nombre. Si el conjunto de datos activo actual no se incluye o se especifica por nombre (por ejemplo, FILE=Dataset1), se crea un nuevo conjunto de datos fusionado sin nombre y se convierte en el conjunto de datos activo. Para obtener información sobre la denominación de conjuntos de datos, consulte DATASET NAME.
El nuevo conjunto de datos activo contiene información completa del diccionario de los archivos de entrada, incluyendo nombres de variables, etiquetas, formatos de impresión y escritura e indicadores de valores perdidos. El nuevo archivo también contiene los documentos de cada uno de los archivos de entrada. Consulte DROP DOCUMENTS para obtener información sobre la supresión de documentos.
Las variables se copian en orden desde el primer archivo especificado, luego desde el segundo archivo especificado, y así sucesivamente.
Si se utiliza el mismo nombre de variable en más de un archivo de entrada, los datos se toman del archivo especificado primero. La información de diccionario se toma del primer archivo que contiene etiquetas de valor, valores perdidos o una etiqueta de variable para la variable común. Si el primer archivo no tiene dicha información, MATCH FILES comprueba el segundo archivo, y así sucesivamente, buscando información de diccionario.
Todos los casos de todos los archivos de entrada se incluyen en el archivo combinado. A los casos ausentes en uno de los archivos de entrada se les asignarán valores perdidos del sistema para las variables exclusivas de ese archivo.
BY especifica que los casos deben combinarse de acuerdo con un valor común en una o más variables clave. Todos los archivos de entrada deben ordenarse en orden ascendente de las variables clave.
Si no se utiliza BY , el programa realiza una coincidencia paralela (secuencial), combinando el primer caso de cada archivo, el segundo caso de cada archivo, etc., sin tener en cuenta los valores de identificación que puedan estar presentes.
Si el conjunto de datos activo se denomina como archivo de entrada, los mandatos N y SAMPLE que se hayan especificado se aplicarán a dicho archivo antes de que coincidan los archivos.
Las condiciones de filtro definidas por el mandato FILTER se conservan. Los casos filtrados se incluyen en el archivo fusionado. Si desea excluir casos, utilice el mandato SELECT IF para especificar criterios de selección antes de ejecutar MATCH FILES.

Limitaciones

Se pueden combinar un máximo de 50 archivos en un mandato MATCH FILES .
Un máximo de un submandato BY . Sin embargo, BY puede especificar varias variables.
El mandato TEMPORARY no puede estar en vigor si el conjunto de datos activo se utiliza como archivo de entrada.

Ejemplos

Ejemplo

MATCH FILES FILE='/data/part1.sav' 
  /FILE='/data/part2.sav' 
  /FILE=*.

MATCH FILES combina tres archivos (el conjunto de datos activo y dos archivos de datos externos de IBM SPSS Statistics ) en una coincidencia paralela. Los casos se combinan según su orden en cada archivo.
El nuevo conjunto de datos activo contiene tantos casos como están contenidos en el mayor de los tres archivos de entrada.

Ejemplo

GET FILE='/examples/data/mydata.sav'.
SORT CASES BY ID.
DATASET NAME mydata.
GET DATA /TYPE=XLS 
  /FILE='/examples/data/excelfile.xls'.
SORT CASES BY ID.
DATASET NAME excelfile.
GET DATA /TYPE=ODBC /CONNECT=
 'DSN=MS Access Database;DBQ=/examples/data/dm_demo.mdb;'+
 'DriverId=25;FIL=MS Access;MaxBufferSize=2048;PageTimeout=5;'
 /SQL='SELECT * FROM main'.
SORT CASES BY ID.
MATCH FILES
 /FILE='mydata'
 /FILE='excelfile'
 /FILE=*
 /BY ID.

Un archivo de datos en formato IBM SPSS Statistics y asignado al nombre de conjunto de datos mydata. Puesto que se le ha asignado un nombre de conjunto de datos, permanece disponible para su uso posterior incluso después de que se hayan abierto otros orígenes de datos.
A continuación, se lee un archivo Excel y se le asigna el nombre de conjunto de datos excelfile. Al igual que el archivo de datos IBM SPSS Statistics , puesto que se le ha asignado un nombre de conjunto de datos, permanece disponible después de que se hayan abierto otros orígenes de datos.
A continuación, se lee una tabla de una base de datos. Puesto que es el conjunto de datos abierto o activado más recientemente, es el conjunto de datos activo.
A continuación, los tres conjuntos de datos se fusionan con el mandato MATCH FILES , utilizando los nombres de conjunto de datos en los submandatos FILE en lugar de los nombres de archivo.
Se utiliza un asterisco (*) para especificar el conjunto de datos activo, que es la tabla de base de datos de este ejemplo.
Los archivos se fusionan en función del valor de la variable clave ID, especificada en el subcomando BY .
Puesto que todos los archivos que se fusionan deben ordenarse en el mismo orden de las variables clave, SORT CASES se realiza en cada conjunto de datos.