Ermitteln doppelter Fälle

"Doppelte" Fälle können aus einer Vielzahl von Gründen einschließlich der folgenden Gründe in Ihren Daten vorkommen:

  • Dateneingabefehler, bei denen derselbe Fall versehentlich mehrmals eingegeben wurde.
  • Mehrere Fälle haben denselben Primär-ID-Wert, aber verschiedene Sekundär-ID-Werte, beispielsweise bei Familienmitgliedern, die alle in demselben Haus leben.
  • Mehrere Fälle stellen denselben Fall dar, jedoch mit unterschiedlichen Werten für die Variablen, die nicht zur Identifizierung des Falles dienen, beispielsweise mehrere Kaufvorgänge, die von derselben Person oder demselben Unternehmen für verschiedene Produkte oder zu verschiedenen Zeitpunkten durchgeführt wurden.

Mit "Doppelte Fälle ermitteln" haben Sie bei der Definition von doppelt sehr große Freiheiten und gewisse Steuerungsmöglichkeiten bei der automatischen Unterscheidung von primären Fällen und doppelten Fällen.

So ermitteln und markieren Sie doppelte Fälle:

  1. Wählen Sie in den Menüs Folgendes aus:

    Daten > Doppelte Fälle ermitteln ...

  2. Wählen Sie eine oder mehrere Variablen für die Identifikation übereinstimmender Fälle aus.
  3. Wählen Sie mindestens eine Option in der Gruppe "Zu erstellende Variablen" aus.

    Die folgenden Optionen sind verfügbar:

  4. Wählen Sie mindestens eine Variable aus, um Fälle innerhalb der Gruppen zu sortieren, die durch die ausgewählten Variablen für übereinstimmende Fälle erstellt wurden. Die durch diese Variablen festgelegte Sortierreihenfolge bestimmt den "ersten" und "letzten" Fall in jeder Gruppe. Ansonsten wird die ursprüngliche Dateireihenfolge beibehalten.
  5. Filtern Sie doppelte Fälle automatisch, sodass sie nicht für Berichte, Diagramme oder statistische Berechnungen verwendet werden.

Übereinstimmende Fälle definieren durch. Fälle werden als doppelt betrachtet, wenn ihre Werte für alle ausgewählten Variablen übereinstimmen. Wenn Sie nur Fälle identifizieren möchten, die in jeder Hinsicht zu 100 % übereinstimmen, müssen Sie alle Variablen auswählen.

Innerhalb der übereinstimmenden Gruppen sortieren nach. Fälle werden automatisch nach den Variablen sortiert, die zur Definition übereinstimmender Fälle dienen. Sie können zusätzliche Sortiervariablen auswählen, die die Reihenfolge der Fälle innerhalb jeder Übereinstimmungsgruppe festlegen.

  • Bei jeder Sortiervariablen ist eine Sortierung in aufsteigender und in absteigender Reihenfolge möglich.
  • Wenn Sie mehrere Sortiervariablen auswählen, werden die Fälle nach den einzelnen Variablen in den Kategorien der vorhergehenden Variablen in der Liste sortiert. Wenn Sie zum Beispiel Datum als erste Sortiervariable und Menge als zweite auswählen, wird innerhalb der Datumskategorien nach Menge sortiert.
  • Mit der Schaltfläche mit dem Aufwärts- bzw. Abwärtspfeil rechts neben der Liste können Sie die Sortierreihenfolge der Variablen ändern.
  • Die Sortierreihenfolge legt den "ersten" und "letzten" Fall innerhalb jeder Übereinstimmungsgruppe fest, wodurch der Wert der optionalen Indikatorvariablen für primäre Fälle bestimmt wird. Wenn Sie beispielsweise alle außer den aktuellsten Fällen in jeder Übereinstimmungsgruppe herausfiltern möchten, können Sie die Fälle innerhalb der Gruppe in aufsteigender Reihenfolge nach einer Datumsvariablen sortieren, wodurch das aktuellste Datum zum letzten Datum in der Gruppe wird.

Indikator für primäre Fälle. Erstellt eine Variable, die für alle eindeutigen Fälle und den in jeder Gruppe übereinstimmender Fälle als primären Fall identifizierten Fall den Wert 1 und für die nicht primären doppelten Fälle in jeder Gruppe den Wert 0 annimmt.

  • Der primäre Fall kann entweder der letzte oder der erste Fall in jeder Übereinstimmungsgruppe sein. Dies richtet sich nach der Sortierreihenfolge innerhalb der Gruppe. Wenn Sie keine Sortiervariablen angeben, richtet sich die Reihenfolge der Fälle innerhalb der einzelnen Gruppen nach der ursprünglichen Dateireihenfolge.
  • Sie können die Indikatorvariable als Filtervariable verwenden, um nicht primäre doppelte Fälle aus Berichten und Analysen auszuschließen, ohne diese Fälle aus der Datendatei zu löschen.

Sequentielle Zählung der übereinstimmenden Fälle in jeder Gruppe. Erstellt eine Variable mit einem Sequenzwert von 1 bis n für die Fälle innerhalb der einzelnen Übereinstimmungsgruppen. Die Sequenz beruht auf der aktuellen Reihenfolge der Fälle in jeder Gruppe. Diese ist entweder die ursprüngliche Dateireihenfolge oder die durch angegebene Sortiervariablen festgelegte Reihenfolge.

Übereinstimmende Fälle an den Anfang der Datei verschieben. Sortiert die Datendatei so, dass alle Gruppen übereinstimmender Fälle sich am Anfang der Datendatei befinden. Dadurch wird die visuelle Überprüfung der übereinstimmenden Fälle im Dateneditor erleichtert.

Häufigkeiten für erstellte Variablen anzeigen. Häufigkeitstabellen mit Zählungen für die einzelnen Werte der erstellten Variablen. Für die Indikatorvariable für primäre Fälle beispielsweise zeigt die Tabelle die Anzahl der Fälle mit dem Wert 0 für diese Variable an, also die Anzahl der doppelten Fälle, und die Anzahl der Fälle mit dem Wert 1 für diese Variable, also die Anzahl der eindeutigen und primären Fälle.

Fehlende Werte

Bei numerischen Variablen wird der systemdefiniert fehlende Wert wie jeder andere Wert behandelt: Fälle mit dem systemdefiniert fehlenden Wert für eine ID-Variable werden so behandelt, als würden sie übereinstimmende Werte für diese Variable aufweisen. Bei Zeichenfolgevariablen werden Fälle ohne Wert für eine ID-Variable so behandelt, als würden sie übereinstimmende Werte für diese Variable aufweisen.

Gefilterte Fälle

Filterstatus werden ignoriert. Gefilterte Fälle werden bei der Evaluierung doppelter Fälle eingeschlossen. Wenn Sie Fälle ausschließen möchten, definieren Sie Auswahlregeln mit Daten > Fälle auswählen und wählen Sie Nicht ausgewählte Fälle löschenaus.