Datenpunkte, auch bekannt als Datenelemente, sind der kleinste Zustand von Daten. Konzeptionell kann man sie sich als eine Zelle in einer Datentabelle oder als eine Information über eine Beobachtung zu einem bestimmten Zeitpunkt vorstellen.
Auf den ersten Blick scheinen sie so einfach zu sein, dass viele Analytiker sie ohne weiteres übersehen. Datenpunkte können jedoch aufgrund der eingeschränkten Sichtbarkeit auf der Ebene der Datenerfassung und des suboptimalen Ausschlusses durch Aggregationen heikel sein.
In diesem Artikel werden (1) Datenpunkte definiert, (2) verschiedene Typen untersucht und (3) Beispiele gegeben. Außerdem wird auf die wichtigen Punkte (4) „unbekannte Unbekannte“ aufgrund der Datenerfassung und (5) Repräsentativität durch Aggregation eingegangen.
Eine kurze Anmerkung zum Inhalt. In der Elektronik und bei Kabelnetzen, in der Regel im Vereinigten Königreich und in Australien, bezieht sich der Begriff „Datenpunkt“ auf einen Zugangspunkt oder eine Steckdose für Kabel oder Telefonleitungen in einem Haus. Elektrische Datenpunkte sind nicht der Gegenstand dieses Artikels.
Definition von Datenpunkten
Im Allgemeinen ist jede Tatsache oder Information ein Datenpunkt.
In der Datenanalyse und Statistik ist ein Datenpunkt eine Information, die eine Beobachtungseinheit zu einem bestimmten Zeitpunkt auf der Ebene der Datenerfassung beschreibt. Meistens erscheint er als eine Zelle in einer Datentabelle.
Oxford Languages definiert einen Datenpunkt als „ein identifizierbares Element in einem Datensatz“, was jedoch nicht ganz korrekt ist. Während ein Datenpunkt ein identifizierbares Element in einem Datensatz ist, ist auch jede Zeile (auch „Record“ oder „Tupel“ genannt) ein identifizierbares Element, aber kein Datenpunkt. Zeilen sind vielmehr Sammlungen von Datenpunkten.
Darüber hinaus sollten Datenpunkte nicht mit Informationsbits auf der Ebene der Datenanalyse verwechselt werden, bei der gesammelte Daten oft aggregiert werden, um Erkenntnisse zu gewinnen, die aber nicht den eigentlichen Datenpunkt der Daten darstellen.
Die Beobachtungseinheit
Datenpunkte lassen sich am besten vor dem Hintergrund von Beobachtungseinheiten verstehen. Eine Beobachtungseinheit sind die „Dinge“, die Ihre Daten beschreiben. Stellen Sie sich vor, Sie sammeln Daten über Schmetterlinge. Jeder Schmetterling ist eine Beobachtungseinheit.
Sie können Informationen wie den Kontinent, auf dem der Schmetterling vorkommt, die Farbe seiner Flügel, sein Gewicht und seine Geschwindigkeit erfassen. Jede dieser Informationen wird als Dimension bezeichnet, und jeder Eintrag in einer Zelle ist ein Datenpunkt. Jeder Datenpunkt beschreibt die Beobachtungseinheit (aka jeden Schmetterling).
Arten von Datenpunkten
Datenpunkte sind entweder Wörter, Zahlen oder andere Symbole. Dies sind die Arten von Datenpunkten, die wir in Datentabellen erstellen und von dort abfragen. In den meisten Programmen sind die folgenden fünf Typen üblich:
- Integer – jede Zahl ohne Dezimalpunkt
- Datum – ein Datum eines bestimmten Jahres und Monats
- Zeit – die Tageszeit
- Text – oft als „String“ bezeichnet, bedeutet einfach eine beliebige Kombination von Buchstaben anstelle von Zahlen oder anderen Symbolen
- Boolesch – Daten, die WAHR oder FALSCH sind, werden oft als YES- oder NO-Text oder als 1 und 0-Zahlen dargestellt. Einfach ausgedrückt handelt es sich um binäre Daten.
Dies sind einfache, übersichtliche Datenpunkttypen, die jedoch bei weitem nicht vollständig sind. In der Tat können wir mit der folgenden Liste tiefer gehen:
Numerische Datenelementtypen
- Integer – jede Zahl, die keine Dezimalzahl ist. Beispiele sind -11, 34, 0, 100
- Tinyint – eine ganze Zahl, aber nur Zahlen von 0 bis 255
- Bigint – eine ganze Zahl größer als 1 Billion
- Float – Zahlen, die zu groß sind, um sie auszuschreiben, und für die man die wissenschaftliche Methode anwenden muss
- Real – jeder feste Punkt auf einer Linie
Datums- und Zeitdatenelementtypen
- Datum – das Datum, sortiert in verschiedenen Formen, einschließlich „mm/dd/yyyy“ (USA), „dd/mm/yyyy“ (Europa), „mmmm dd, yyyy“ und „mm-dd-yy“ und viele mehr.
- Uhrzeit – die Tageszeit, aufgeschlüsselt bis zu Millisekunden
- Datumszeit – der Datums- und Zeitwert eines Ereignisses
- Zeitstempel – speichert die Anzahl der verstrichenen Sekunden seit 1970-01-01 00:00:00′ UTC
- Jahr – speichert Jahre von 1901 bis 2155 in zweistelligen oder vierstelligen Bereichen
Zeichen- und Zeichenketten-Datenelementtypen
- Char – feste Länge der Zeichen, maximal 8.000
- Varchar – max. 8.000 Zeichen wie char, aber jeder Eintrag kann eine andere Länge haben (variabel)
- Text – ähnlich wie varchar, aber die maximale Länge beträgt 2 GB anstelle einer bestimmten Länge
Unicode-Zeichen- und String-Elementtypen
Unicode ist eine Art der Strukturierung von Daten in Form von U+0000, wobei die 0 ein beliebiger Typ sein kann
- nchar – feste Länge mit einer maximalen Länge von 8.000 Zeichen
- nvarchar – variable Länge mit maximal 8.000 Zeichen
- ntext – Speicher mit variabler Länge, nur dass die maximale Länge jetzt 1 GB beträgt und nicht mehr eine bestimmte Länge
Binäre Datenelementtypen
Eine Kombination aus 0en und 1en
- binary – feste Länge mit maximal 8.000 Bytes
- varbinary – Speicherung mit variabler Länge und maximal 8.000 Bytes
Weitere Typen von Datenelementen
- clob – auch bekannt als Character Large Object, ist ein Typ von Unterzeichen, der Unicode-Texte mit bis zu 2 GB speichert
- blob – enthält große Binärobjekte
- xml – ein spezieller Datentyp, der XML-Daten speichert. XML steht für Extensible Markups Language und ist in Datenbanken weit verbreitet.
Datenpunkt vs. Datensatz
In einem anderen Artikel über den Datensatz erkläre ich, dass es sich bei Datensätzen nicht nur um Datentabellen handelt, sondern auch um eine Sammlung von einem oder mehreren Datenobjekten (einschließlich Tabellen), die entweder am selben Ort gespeichert sind ODER sich auf dasselbe Thema beziehen.
Wir haben bereits über Datenpunkte in Datentabellen gesprochen und gezeigt, dass ein Punkt eine Zelle darstellt. Dieselbe Logik gilt für alle Datenobjekte, die einen Datensatz bilden.
In einem Array, Record oder Set stellt ein Punkt 1 Zelle dar. In einem Zeigerobjekt, das als Dimension geschrieben ist, stellen Punkte ebenfalls 1 Zelle dar. In einem skalaren Objekt ist der einzelne Wert des Skalars ein Daten-Punkt.
In Dateien und Schemata gibt es keine Datenpunkte. Dies liegt in der Natur dieser Objekte begründet. Eine Datei ist ein Code, der geschrieben wurde, um die korrekte Struktur eines anderen Datenobjekts zu gewährleisten, und könnte in gewissem Sinne als Nicht-Datenobjekt betrachtet werden.
Schemata sind Zusammenfassungen anderer Objekte, und sie ignorieren Punkte völlig, um Objektinhalte schnell zu kommunizieren.
Datenpunkt vs. Datenattribut
Ein Datenattribut ist ein Synonym für eine Datendimension. Es ist die Überschrift einer Spalte in einer Tabelle. In dem Beispiel mit den Schmetterlingsdaten ist die Flügelfarbe ein Attribut.
Datenpunkte sind also ein einzelner Werteintrag eines Attributs.
Datenpunkt vs. Datenfeld
Ein Datenfeld ist gleichbedeutend mit einem Datenattribut, obwohl es auf eine etwas andere Weise verwendet wird. „Feld“ bezieht sich in der Regel auf die Spalte in einer Tabelle selbst, während sich „Attribut“ in der Regel auf die Spalte bezieht, wenn wir über eine bestimmte Zeile sprechen.
Zum Beispiel würde man sagen, dass „Farbe der Flügel“ ein Datenfeld ist, aber man würde sagen „das Attribut Farbe der Flügel für Monarchfalter ist orange“.
Außerdem hat „Feld“ im Kontext von Programmiersprachen eine technische Bedeutung, die „Attribut“ nicht hat.
Beobachtungseinheit vs. Analyseeinheit
Die häufigste Ursache für Verwirrung im Zusammenhang mit Datenpunkten ist der Unterschied zwischen Beobachtungseinheiten und Analyseeinheiten.
Analyseeinheiten sind die einzelnen Zeilen, die nach der Analyse und Aggregation der Daten in einer Datentabelle vorhanden sind. Wie bereits erwähnt, sind Beobachtungseinheiten jede Zeile, die eine Sammlung von Datenpunkten im Basisdatensatz darstellt.
Nehmen wir unser Beispiel mit den Schmetterlingen: Unsere Analyseeinheit ist „Kontinente, auf denen sie vorkommen“, und wir möchten wissen, wie viele Farben und Schmetterlinge auf diesen Kontinenten vorkommen. So würde es in der Ansicht „Beobachtungseinheit“ und in der Ansicht „Analyseeinheit“ aussehen:
Wie Sie sehen können, zählt die analytische Ansicht die Anzahl der Schmetterlinge und die Farben der Flügel, die auf jedem Kontinent vorkommen. Dabei handelt es sich um eine Aggregation, und jetzt fehlen die ursprünglichen Datenpunkte.
Die Entfernung der Originaldaten zu Analysezwecken ist notwendig, um Erkenntnisse aus Big Data zu gewinnen, aber es gibt eine Debatte darüber, wann dies getan werden sollte und wann nicht. Der nächste kurze Abschnitt befasst sich mit diesem und anderen wichtigen Risiken.
Einschränkungen bei der Datenerfassung und Darstellung durch Aggregation
Darstellung durch Aggregation
Wie wir gesehen haben, kann die Darstellung von Datenpunkten auf der analytischen Ebene zu einer Herausforderung werden, da bei jeder Aggregation, die wir wählen, einige Datenpunkte entfernt werden. Mit anderen Worten: Analysten treffen Entscheidungen darüber, wie Datenpunkte behandelt werden sollen, und dies wirkt sich auf unser Verständnis der Daten aus.
Um die Auswirkungen dieser Entscheidungen zu verstehen, muss man nicht bis zu den moralischen oder ethischen Konsequenzen vordringen.
Der Leser Ihrer Analyse wird in die Richtung beeinflusst, die Sie ihm mitteilen (es sei denn, er führt die vollständige Analyse selbst durch, was in Unternehmen selten geschieht und Datenanalysten überflüssig machen würde). Während Sie als Analytiker sich der „verlorenen“ Daten nach der Aggregation bewusst sind, wird der Leser sie nur selten behalten, selbst wenn sie offengelegt werden.
Das bedeutet, dass Sie Ihre Aggregationen und die Datenpunkte, die Sie auf der analytischen Ebene „entfernen“ wollen, bewusst auswählen müssen.
Einschränkungen bei der Datenerhebung
Wie oben gezeigt, reagieren Datenpunkte empfindlich auf Detailebenen, so dass Sie darauf achten müssen, sie mit der richtigen konzeptionellen Hierarchie im Hinterkopf zu behandeln. Das ist schwieriger, als es klingt. Detailebenen sind in einer Datentabelle leicht zu erkennen, aber oft existieren sie nur als Konzept in den Köpfen der Datensammler.
In dem Beispiel, in dem Daten über Schmetterlinge gesammelt werden, sind die beiden Dimensionen der Kontinent, auf dem sie vorkommen, und die Farbe ihrer Flügel. Sowohl „Nordamerika“ als auch „Orange“ sind Beispiele für Datenpunkte, und in „Nordamerika“ werden wahrscheinlich Schmetterlinge mit vielen verschiedenen Flügelfarben vorkommen (in diesem Fall zwei).
Es war jedoch die Entscheidung des Datensammlers, diese beiden Dimensionen zu wählen. Hätte er/sie „Land“ hinzugefügt, wäre der Detaillierungsgrad der einzelnen Datenpunkte detaillierter gewesen. Mit anderen Worten: Die Datenpunkte sind durch die Datenerhebung begrenzt und von ihr abhängig.
Analysten müssen sich dieses Mangels bewusst sein und in der Lage sein, dies jedem zu erklären, der ihre Visualisierungen betrachtet.
Ein Kommentar
Puh, das ist echt eine Menge an Informationen (oder Daten! Haha!), die hier aufgezeigt werden. Das muss man erstmal verdauen. Auf der anderen Seite auch echt super, wie ausfühlich der Artikel ist.
Ich finde das persönlich super spannend, dass man sich gar nicht im digitalen Raum bewegen kann, ohne Daten zu generieren. Damit werden (oder sind bereits) Daten mit die wichtigste und sensibelste Sache, die man selbst hat. Was man alles damit anstellen kann…