Website-Icon e-hack

Was ist Big Data? – Eine Definition

Was ist Big Data?

Was versteht man unter Big Data und wofür ist das gut?

Was ist Big Data?

Big Data bezieht sich auf umfangreiche, vielfältige Datensätze, die mit immer höherer Geschwindigkeit wachsen. Sie umfassen die Menge an Informationen, die Erstellungs- und Sammelgeschwindigkeit sowie die Vielfalt oder den Umfang der erfassten Datenpunkte. Big Data stammen oft aus mehreren Quellen und kommen in verschiedenen Formaten an.

Wichtige Keynotes:

Big Data können als unstrukturiert oder strukturiert kategorisiert werden. Strukturierte Daten bestehen aus Informationen, die von der Organisation bereits in Datenbanken und Tabellenkalkulationen verwaltet werden; sie sind häufig numerischer Natur. Unstrukturierte Daten sind Informationen, die unorganisiert sind und nicht in ein vorgegebenes Modell oder Format fallen. Dazu gehören auch Daten, die aus Social-Media-Quellen gesammelt werden, die Institutionen dabei helfen, Informationen über Kundenbedürfnisse zu sammeln.

Big Data können aus öffentlich geteilten Kommentaren in sozialen Netzwerken und Websites, freiwillig aus persönlicher Elektronik und Apps, durch Fragebögen, Produktkäufe und elektronische Check-Ins gesammelt werden. Das Vorhandensein von Sensoren und anderen Inputs in intelligenten Geräten ermöglicht es, Daten in einem breiten Spektrum von Situationen und Umständen zu sammeln.

Die großen Datensätze werden meist in Computerdatenbanken gespeichert und mit Software analysiert, die speziell für die Verarbeitung großer, komplexer Datensätze entwickelt wurde. Viele Software-as-a-Service (SaaS)-Unternehmen sind auf die Verwaltung dieser Art komplexer Daten spezialisiert.

Verwendung von Big Data

Datenanalysten untersuchen die Beziehung zwischen verschiedenen Datentypen, wie z.B. demographische Daten und Kaufhistorie, um festzustellen, ob eine Korrelation besteht. Solche Beurteilungen können firmenintern innerhalb eines Unternehmens oder extern von einem Dritten durchgeführt werden, der sich auf die Verarbeitung großer Daten in verdauliche Formate konzentriert. Unternehmen nutzen oft die Bewertung großer Daten durch solche Experten, um sie in verwertbare Informationen umzuwandeln.

Nahezu jede Abteilung in einem Unternehmen kann Erkenntnisse aus der Datenanalyse nutzen, von der Personalabteilung über die Technologie bis hin zu Marketing und Vertrieb. Das Ziel großer Daten ist es, die Geschwindigkeit zu erhöhen, mit der Produkte auf den Markt kommen, den Zeit- und Ressourcenaufwand für die Marktakzeptanz und die Zielgruppen zu verringern und sicherzustellen, dass die Kunden zufrieden bleiben.

Vor- und Nachteile von Big Data

Die Zunahme der verfügbaren Datenmenge birgt sowohl Chancen als auch Probleme.

Im Allgemeinen dürfte es den Unternehmen mit mehr Daten über ihre Kunden (und potenziellen Kunden) möglich sein, ihre Produkte und Marketinganstrengungen besser auf ihre Bedürfnisse zuzuschneiden, um ein Höchstmaß an Zufriedenheit und Wiederholungsgeschäften zu erreichen. Unternehmen, die in der Lage sind, eine große Menge an Daten zu sammeln, erhalten die Möglichkeit, tiefere und reichhaltigere Analysen durchzuführen.

Während eine bessere Analyse positiv ist, können große Datenmengen auch zu Überlastung und Lärm führen. Unternehmen müssen in der Lage sein, mit größeren Datenmengen umzugehen und gleichzeitig zu bestimmen, welche Daten im Vergleich zum Datenrauschen Signale darstellen. Die Bestimmung dessen, was die Daten relevant macht, wird zu einem Schlüsselfaktor.

Darüber hinaus können die Art und das Format der Daten eine besondere Behandlung erfordern, bevor man auf sie reagiert. Strukturierte Daten, die aus numerischen Werten bestehen, können leicht gespeichert und sortiert werden. Bei unstrukturierten Daten, wie E-Mails, Videos und Textdokumenten, müssen unter Umständen ausgefeiltere Techniken angewandt werden, bevor sie nützlich sind.

Beispiele für Big Data

BigData hat unvorstellbar viele Anwendungsmöglichkeiten. Überall wo Daten anfallen oder gesammelt werden können, kann eine große Datenbank angelegt werden. Daten können dabei fast alles sein.

Arten von Big Data

BigData können in drei Varianten vorliegen:

Strukturierte Daten

Eine Datenbank beinhaltet normalerweise strukturierte Daten.

Alle Daten, die in Form eines festen Formats gespeichert, abgerufen und verarbeitet werden können, werden als „strukturierte“ Daten bezeichnet. Im Laufe der Zeit haben Talente in der Informatik größere Erfolge bei der Entwicklung von Techniken zur Arbeit mit dieser Art von Daten (bei denen das Format im Voraus gut bekannt ist) und auch bei der Ableitung von Nutzen daraus erzielt. Heutzutage sehen wir jedoch Probleme voraus, wenn die Größe solcher Daten in großem Umfang zunimmt, typische Größen liegen im Bereich von mehreren Zettabytes.

1021 Bytes entsprechen 1 Zettabyte oder eine Milliarde Terabyte bilden ein Zettabyte.

Wenn man sich diese Zahlen ansieht, kann man leicht verstehen, warum der Name Big Data verwendet wird, und sich die Herausforderungen vorstellen, die mit der Speicherung und Verarbeitung dieser Daten verbunden sind.

Beispiel für strukturierte Daten

Daten, die in einem relationalen Datenbankverwaltungssystem gespeichert sind, wie eine Mitarbeiter-Tabelle eines fiktiven Unternehmens, ist ein Beispiel für strukturierte Daten.

Mitarbeiter_ID Mitarbeiter_Name Geschlecht Abteilung Gehalt
12345 Uta Mayer weiblich Buchhaltung 3456
12346 Ralf Koch männlich IT 3457
12347 Ulrike Schmitt weiblich Sales 3458
12348 Frank Becker männlich Marketing 3459

 

Unstrukturierte Daten

Alle Daten mit unbekannter Form oder Struktur werden als unstrukturierte Daten klassifiziert. Abgesehen davon, dass sie sehr groß sind, stellen unstrukturierte Daten eine Vielzahl von Herausforderungen hinsichtlich ihrer Verarbeitung dar, um aus ihnen Wert zu schöpfen. Ein typisches Beispiel für unstrukturierte Daten ist eine heterogene Datenquelle, die eine Kombination aus einfachen Textdateien, Bildern, Videos usw. enthält. Heutzutage stehen Organisationen eine Fülle von Daten zur Verfügung, aber leider wissen sie nicht, wie sie daraus einen Wert ableiten können, da diese Daten in Rohform oder unstrukturiertem Format vorliegen.

Beispiel für unstrukturierte Daten

Die von der Google Suche zurückgegebene Ausgabe ist ein Beispiel für unstrukturierte Daten. Allerdings arbeitet Google daran immer mehr strukturierte Daten in den Suchergebnissen darzustellen.

Die SERP 1 (Search Engine Result Page) von Google ist ein Beispiel für unstrukturierte Daten.

Semi-strukturierte Daten

Semi-strukturierte Daten können beide Formen von Daten enthalten. Wir können halbstrukturierte Daten als eine strukturierte in Form sehen, aber sie sind tatsächlich nicht z.B. mit einer Tabellendefinition in relationalen DBMS definiert. Ein Beispiel für semi-strukturierte Daten sind Daten, die in einer XML-Datei dargestellt werden.

Beispiel für semi-strukturierte Daten

In einer XML-Datei gespeicherte persönliche Daten:

<rec><name>Hans Förster</name><geschlecht>männlich</geschlecht><alter>35</alter></rec>
<rec><name>Alma Fritz</name><geschlecht>weiblich</geschlecht><alter>41</alter></rec>
<rec><name>Peter Müller</name><geschlecht>männlich</geschlecht><alter>29</alter></rec>
<rec><name>Maya Luft</name><geschlecht>weiblich</geschlecht><alter>26</alter></rec>
<rec><name>Karl Frank</name><geschlecht>männlich</geschlecht><alter>35</alter></rec>

Eigenschaften von Big Data

Vorteile der Verarbeitung großer Datenmengen

Die Fähigkeit, große Datensätze zu verarbeiten, bringt zahlreiche Vorteile mit sich. So können Unternehmen sich bei der Entscheidungsfindung externe Informationen zunutze machen. Der Zugang zu sozialen Daten von Suchmaschinen und Websites wie Facebook und Twitter ermöglicht es Unternehmen, ihre Geschäftsstrategien zu optimieren.

Verbesserter Kundenservice – Traditionelle Kunden-Feedback-Systeme werden durch neue Systeme ersetzt, die mit Big Data-Technologien entwickelt wurden. In diesen neuen Systemen werden Big-Data- und natürliche Sprachverarbeitungstechnologien zum Lesen und Auswerten von Verbraucherantworten verwendet.

Weitere Vorteile sind:

Big-Data-Technologien können zum Erstellen eines Bereitstellungsbereichs oder einer Landezone für neue Daten verwendet werden, bevor festgelegt wird, welche Daten in das Data Warehouse verschoben werden sollen.

Darüber hinaus hilft eine solche Integration von Big-Data-Technologien und Data-Warehouse einem Unternehmen, Daten auszulagern, auf die nur selten zugegriffen wird.

Zusammenfassung

Exit mobile version