Beschreiben von Daten

Es gibt viele verschiedene Wege, Daten zu beschreiben. Die meisten Beschreibungen konzentrieren sich auf die Quantität und die Qualität der Daten, also auf die Menge an verfügbaren Daten und die Beschaffenheit der Daten. Nachfolgend sind einige wichtige Merkmale aufgeführt, auf die beim Beschreiben von Daten eingegangen werden sollte.

  • Menge an Daten. Für die meisten Modellierungsverfahren gibt es im Zusammenhang mit der Datengröße stehende Kosten-Nutzen-Abwägungen (Trade-Offs). Mithilfe großer Datasets können genauere Modelle erstellt werden, sie können aber auch die Verarbeitungszeit verlängern. Sie sollten sich überlegen, ob auch ein Subset der Daten verwendet werden kann. Stellen Sie sicher, dass Ihre Aufzeichnungen für den abschließenden Bericht Größenstatistiken für alle Datasets enthalten und vergessen Sie nicht, beim Beschreiben der Daten sowohl die Anzahl der Datensätze als auch der Felder (Attribute) zu berücksichtigen.
  • Wertetypen. Daten können in einer Vielzahl von Formaten vorliegen, z. B. numerisch, kategorial (Zeichenfolge) oder boolesch (wahr/falsch). Wenn Sie den Werttyp beachten, können Sie Probleme während der späteren Modellierung vermeiden.
  • Codierungsschemata. Häufig sind Werte in der Datenbank Darstellungen von Merkmalen wie Geschlecht oder Produkttyp. So verwendet z. B. ein Dataset die Werte M und W, um männlich und weiblich darzustellen, während andere Datasets dafür die numerischen Werte 1 und 2 verwenden. Beachten Sie mögliche widersprüchliche Schemata im Datenbericht.

Mit diesem erlangten Wissen sind Sie nun in der Lage, den Bericht zur Datenbeschreibung zu verfassen und Ihre Ergebnisse mit einem größeren Publikum zu teilen.