Was ist ein Datensatz?
Von Kindesbeinen an sind wir alle mit Daten konfrontiert. Wahrscheinlich erinnern Sie sich daran, dass Sie schon in der Grundschule im naturwissenschaftlichen Unterricht Datentabellen gesehen haben.
Jede dieser Datentabellen wurde wahrscheinlich irgendwann als „Datensatz“ bezeichnet. Und warum? Weil es eine einfache, intuitive Art ist, über Daten zu sprechen.
Aber was ist ein Datensatz wirklich? Kann jede Tabelle als Datensatz bezeichnet werden, gibt es definierende Kriterien? Was sind die verschiedenen Arten von Datensätzen? Und wie funktionieren sie in verschiedenen Branchen?
Leider gibt es keine offizielle Definition. Stattdessen habe ich 7 Anwendungsfälle analysiert, um festzustellen, wie der Begriff „Satz“ verwendet wird, und eine ganzheitliche Definition zu erstellen.
Die Anwendungsfälle sind:
- Branchendefinitionen von führenden Datenanbietern wie IBM und Google
- linguistische Definitionen aus Wörterbüchern wie Oxford Languages und Webster
- technische Foren
- die Verwendung durch staatliche Organisationen wie Eurostat und data.gov
- traditionelle mathematische Lehrbücher
- Forschungsarbeiten
Streng genommen ist ein Datensatz eine Sammlung von einer oder mehreren Tabellen, Schemata, Punkten und/oder Objekten, die entweder am selben Ort gespeichert sind oder sich auf dasselbe Thema beziehen. In den meisten Fällen bezieht sich der Begriff jedoch einfach auf eine Tabelle mit Daten zu einem bestimmten Thema.
Datensatz Definition
Noch einmal: Ein Datensatz ist eine Sammlung von einer oder mehreren Tabellen, Schemata, Punkten und/oder Objekten, die entweder an demselben Ort gespeichert sind oder sich auf dasselbe Thema beziehen.
Schauen wir uns das einmal genauer an.
Die meisten von uns sind mit Datentabellen vertraut, aber weniger mit Schemata, Punkten und Objekten. Kurz gesagt handelt es sich dabei um verschiedene Formate zur Darstellung und Speicherung von Informationen. Aber wir werden diese weiter unten im Abschnitt Datentypen definieren.
Wichtig ist, dass ein Datensatz auch Tabellen enthalten kann, deren Inhalte nichts miteinander zu tun haben… solange sie am selben Ort gespeichert sind.
Um zu verstehen, warum das so ist, stellen Sie sich vor, Sie sind ein Datenbankanalyst. Sie verwalten eine Vielzahl verschiedener Tabellen in Ihrem Data Warehouse. Viele dieser Tabellen enthalten nicht zusammenhängende Informationen, haben aber eine ähnliche Größe. Sie beschließen, sie in Gruppen zusammenzufassen, um den Speicherplatz zu optimieren. Sie haben soeben einen Datensatz aus unverbundenen Tabellen erstellt!
Unverbundene Daten, die als Satz betrachtet werden, kommen jedoch fast ausschließlich im Zusammenhang mit der Speicherung vor.
In praktisch allen anderen Fällen bestehen Datensätze aus einer oder mehreren Tabellen, die zusammenarbeiten, um Informationen über den zugrunde liegenden Gegenstand zu liefern.
Wie beschreibt man einen Datensatz?
Wir haben eine formale Definition gegeben, aber das ist normalerweise nicht die Art, wie ich einen Datensatz beschreiben möchte. Stattdessen lassen sich Datensätze am besten als Informationen beschreiben. Datensätze sind Sammlungen von Informationen, die sich alle auf dasselbe Thema beziehen, in der Regel in Form einer Tabelle, auch wenn es keine Begrenzung der Anzahl gibt.
Ein Datensatz unterscheidet sich von einem Data Warehouse, einem Data Lake und einer Datenmühle, weil er sich auf ein viel engeres Thema konzentriert. Stellen Sie sich zum Beispiel vor, Sie möchten die Flugzeugindustrie untersuchen. Ein Data Warehouse würde Informationen über Transaktionen, Flüge und einzelne Unternehmen enthalten. Ein Datensatz hingegen würde nur eines dieser Elemente beschreiben.
Liste von 16 öffentlichen Datensätzen
- Kaggle. Kaggle bietet eine große Auswahl an Datensätzen zum maschinellen Lernen. Eine Registrierung ist erforderlich, aber es lohnt sich.
- FiveThirtyEight. FiveThirtyEight ist eine Nachrichten- und Sportseite mit Datensätzen, die auf GitHub verfügbar sind.
- BuzzFeed. BuzzFeed ist eine Nachrichten- und Unterhaltungsseite, die die in ihren Artikeln verwendeten Daten auf GitHub veröffentlicht.
- NASA. NASA-Erdbeobachtungsdaten und vieles mehr sind auf ihrer Website verfügbar.
- Amazon AWS. Amazons AWS bietet eine Vielzahl von Datensätzen zu verschiedenen Themen.
- A. Google veröffentlicht viele Datensätze in seinem BigQuery-Tool.
- Universität von Kalifornien Irvine. Die UCI ist eine der ältesten Quellen für öffentliche Datensätze im Internet, die Themen von Autos bis hin zu Brustkrebs abdecken.
- Quandl. Quandl ist ein NASDAQ-Unternehmen mit einer Vielzahl von Finanzdaten, von Aktienkursen bis zu globalen Indikatoren.
- data.world. data.world ist eine gängige Quelle für die berühmte Datenvisualisierungsveranstaltung Makeover Monday.
- Data.gov. Data.gov ist das offene Datenangebot der US-Regierung. Diese Seite ist ein Muss!
- Die Weltbank. Eine großartige Quelle für weltweite Entwicklungsdaten.
- Reddit. Reddit-Datensätze von Mitwirkenden.
- Weather Underground. Wunderground ermöglicht es Ihnen, Wettervorhersagedaten über seine API zu manipulieren.
- Socratas. Ein weiterer großartiger Ort für verschiedene Datensätze.
- Akademische Torrents. Academic Torrents ermöglicht Ihnen das Herunterladen von Daten aus akademischen Arbeiten, die auf der ganzen Welt veröffentlicht wurden.
- Data Is Plural. Eine wöchentliche Zeitung mit aufschlussreichen Datensätzen.
Arten von Datensätzen
Wie im Abschnitt „Definition“ erläutert, bestehen Datensätze aus einer oder mehreren
- Tabellen
- Schemata
- Punkten, und/oder
- Objekten
Jedes dieser Elemente ist ein „Typ“ von Datensatz oder Bestandteil eines größeren Datensatzes. Hier ein Beispiel für jeden dieser Typen.
Datentabelle
Eine Datentabelle besteht aus Spalten und Zeilen, wobei die Spalten die Variablen und die Zeilen die Datensätze für diese Variablen darstellen.
Objekt | Farbe | Gewicht |
---|---|---|
Opel | Grün | 2.5 t |
VW | Gelb | 2,0 t |
BMW | Schwarz | 2,0 t |
Datenschema
Ein Datenschema zeigt die Beziehungen zwischen verschiedenen Dateneinheiten in einem Datensatz. Beispielsweise könnte die obige Tabelle, die Farbe und Gewicht für drei Autos zeigt, mit einer anderen Tabelle verbunden sein, die Preis und Kaufdatum für dieselben Autos zeigt. Ein Schema zwischen diesen beiden Tabellen könnte wie folgt aussehen:
Datenpunkte
Ein Datenpunkt ist eine atomare Einheit von Daten. Er kann allein oder innerhalb einer anderen Dateneinheit, wie z. B. einer Tabelle, existieren. In dem Beispiel der Autotabelle sind Grün und 2 Tonnen Beispiele für Datenpunkte.
Datenobjekte
Ein Datenobjekt ist eine Sammlung von einem oder mehreren Datenpunkten, die als Ganzes einen Sinn ergeben. Datenobjekte umfassen Datentabellen, Arrays, Zeiger, Datensätze, Dateien, Mengen und skalare Typen.
In der Hierarchie der Datenbegriffe sind Datenpunkte die kleinsten, Datenobjekte sind größer, und Datensätze sind noch größer.
Beispiele für Datensätze
Übliche, alltägliche Beispiele für Datensätze sind:
- Stundenplan
- Arbeitsplan für zu Hause
- Schülernoten in einer Prüfung
- Transaktionen auf einer Website
- Suchbegriffe in Google
- Kontoauszug
- Ergebnisse von Sportwettkämpfen
- Statistiken von Sportlern
- Leistungsüberprüfungen
- KPIs
Jedes dieser Elemente stellt einen kleinen Datensatz in seiner eigenen Hinsicht dar. Sie alle werden in der Regel als einzelne Datentabellen angezeigt, obwohl sie in mehreren Objekten gespeichert und dargestellt werden können.
Original- vs. aggregierte Datensätze
Aus Erfahrung kann ich sagen, dass die Hauptursache für Verwirrung in Bezug auf Datensätze darin liegt, dass man den Unterschied zwischen Original- und Aggregatdatensätzen nicht kennt. Den meisten Nicht-Datenexperten fällt es schwer, den Unterschied intuitiv zu verstehen, was bei Spezialisten zu Frustration führen kann.
Worin besteht also der Unterschied? Ein Originaldatensatz ist ein Datensatz, der die feinste verfügbare Detailtiefe in einer normalisierten Struktur enthält. Mit granular meine ich, dass es keine Möglichkeit gibt, die Daten weiter aufzuteilen“. Die Art und Weise, wie sie erfasst werden, ist die Art und Weise, wie sie dargestellt werden. Mit normalisiert meine ich, dass jede Zeile aus einem Punkt jeder Variable für den jeweiligen Datensatz besteht – es gibt keine Überschneidungen.
Nehmen Sie zum Beispiel diesen ursprünglichen Datensatz:
Objekt | Farbe | Gewicht |
---|---|---|
Opel | Grün | 2.5 t |
VW | Gelb | 2,0 t |
BMW | Schwarz | 2,0 t |
Jeep | Grün | 2,5 t |
Honda | Blau | 2,0 t |
Ford | Blau | 2,5 t |
Der Originaldatensatz ist deshalb so gut, weil jede Zeile die kleinste Detailstufe für jedes Auto darstellt, was auch bedeutet, dass er normalisiert ist.
Wir sehen jedoch oft Datentabellen, die wie die folgende formatiert sind:
Farbe | Anzahl | Durchschnittsgewicht |
---|---|---|
Grün | 2 | 2,5 t |
Gelb | 1 | 2,0 t |
Schwarz | 1 | 2,0 t |
Blau | 2 | 2,25 t |
Diese Daten sind keine Originaldaten – sie liefern Informationen über den ursprünglichen Datensatz, indem sie Anzahl und Gewicht auf der Detailebene „Farbe“ aggregieren.
Interpretation von Datensätzen
Das obige Beispiel ist in der Theorie leicht zu verstehen, aber wenn wir es mit riesigen Datenbanken zu tun haben, die aus komplexen Dimensionen bestehen, kann es schwierig sein, den ursprünglichen Datensatz zu identifizieren. Wenn wir mit dem Datensatz nicht vertraut sind oder es in einem Unternehmen viele Datensätze gibt, kann es für Nicht-Datenexperten frustrierend sein, den Überblick zu behalten.
Diese Frustration kann sich ausbreiten, wenn Datenexperten und Nicht-Datenexperten zusammenarbeiten. Stellen Sie sich zwei Datenanalysten namens Sam und Joe sowie einen Marketingfachmann namens James vor. James bittet um Daten zu seiner Marketingkampagne. Sam stellt eine aggregierte Tabelle mit Informationen zur Verfügung. Sam verlässt das Unternehmen ein paar Tage später, aber James hat Schwierigkeiten, die Daten zu verstehen.
Als James Joe um Hilfe bittet, besteht dieser darauf, den Originaldatensatz bei ihrem Treffen vorzulegen. James stellt jedoch die Tabelle zur Verfügung, die er hat. Joe ist frustriert, weil sie in der Besprechung Zeit verlieren, weil der Originaldatensatz fehlt, was hätte vermieden werden können, wenn James ihn früher erwähnt hätte.
Es gibt nur eine wirksame Antwort auf diese Herausforderung. Datenexperten müssen für die Sichtweisen von nicht analytischen Kollegen sensibel sein, und Nicht-Datenexperten müssen daran arbeiten, die verschiedenen Originaldatensätze des Unternehmens zu verstehen.
Der Datensatz in Mathematik und Statistik
Ein Datensatz in der Mathematik ist etwas anders als die allgemeine Definition. Ein mathematischer Datensatz ist eine Sammlung von Zahlen, die durch Berechnungen von Mittelwert, Median und Modus beschrieben werden können.
Was ist der Unterschied zu „allgemeinen“ Datensätzen? Mathematische Datensätze enthalten nur Zahlen, während allgemeine Datensätze Zahlen und Wörter oder auch jeden anderen Datentyp enthalten können. Streng genommen könnte eine numerische Spalte in einer Datentabelle als mathematischer Datensatz betrachtet werden.