Datenmetadaten

In diesem Abschnitt wird die Einrichtung der Datenmodellattribute auf der Grundlage von pyspark.sql.StructField beschrieben.

spss.datamodel.Role-Objekte

Diese Klasse zählt gültige Rollen für jedes Feld in einem Datenmodell auf.

BOTH: gibt an, dass dieses Feld ein Antezedens oder Sukzedens sein kann.

FREQWEIGHT: gibt an, dass dieses Feld als Häufigkeitsgewichtung verwendet werden soll. Dies wird dem Benutzer nicht angezeigt.

INPUT: gibt an, dass dieses Feld ein Prädiktor oder ein Antezedens ist.

NONE: gibt an, dass dieses Feld nicht unmittelbar während der Modellierung verwendet wird.

TARGET: gibt an, dass dieses Feld vorhergesagt wird oder ein Sukzedens ist.

PARTITION: gibt an, dass dieses Feld die Datenpartition angibt.

RECORDID: gibt an, dass dieses Feld die Datensatz-ID angibt.

SPLIT: gibt an, dass dieses Feld die Daten aufteilt.

spss.datamodel.Measure-Objekte

Diese Klasse zählt die Messniveaus für Felder in einem Datenmodell auf.

UNKNOWN: gibt an, dass der Messtyp unbekannt ist.

CONTINUOUS: gibt an, dass der Messtyp stetig ist.

NOMINAL: gibt an, dass der Messtyp nominal ist.

FLAG: gibt an, dass der Feldwert einer von zwei Werten ist.

DISCRETE: gibt an, dass der Feldwert als Wertesammlung interpretiert werden soll.

ORDINAL: gibt an, dass der Messtyp ordinal ist.

TYPELESS: gibt an, dass das Feld einen beliebigen Wert haben kann, der mit seinem Speicher kompatibel ist.

pyspark.sql.StructField-Objekte

Stellt ein Feld in einem StructType-Objekt dar. Ein StructField-Objekt enthält vier Felder:
  • name (string): Name eines StructField-Objekts
  • dataType (pyspark.sql.DataType): bestimmter Datentyp
  • nullable (bool): gibt an, ob die Werte eines StructField-Objekts den Wert None enthalten können
  • metadata (dictionary): ein Python-Wörterbuch, das die Optionsattribute speichert
Sie können die Metadatenwörterbuchinstanz verwenden, um das Maß-, Rollen- oder Beschriftungsattribut für das bestimmte Feld zu speichern. Es gibt folgende Schlüsselwörter für diese Attribute:
  • measure: das Schlüsselwort für das Attribut measure
  • role: das Schlüsselwort für das Attribut role
  • displayLabel: das Schlüsselwort für das Attribut label
Beispiel:
from spss.datamodel.Role import Role
from spss.datamodel.Measure import Measure
_metadata = {}
_metadata['measure'] = Measure.TYPELESS
_metadata['role'] = Role.NONE
_metadata['displayLabel'] = "field label description"
StructField("userName", StringType(), nullable=False, 
metadata=_metadata)