Was ist Big Data?
Big Data bezieht sich auf umfangreiche, vielfältige Datensätze, die mit immer höherer Geschwindigkeit wachsen. Sie umfassen die Menge an Informationen, die Erstellungs- und Sammelgeschwindigkeit sowie die Vielfalt oder den Umfang der erfassten Datenpunkte. Big Data stammen oft aus mehreren Quellen und kommen in verschiedenen Formaten an.
Wichtige Keynotes:
- Big Data ist eine große Menge unterschiedlicher Informationen, die in immer größeren Mengen und mit immer höherer Geschwindigkeit eintreffen.
- Big Data können strukturiert (oft numerisch, leicht formatierbar und speicherbar) oder unstrukturiert (mehr Freiform, weniger quantifizierbar) sein.
- Nahezu jede Abteilung in einem Unternehmen kann die Ergebnisse der Analyse großer Datenmengen nutzen, aber der Umgang mit dem Durcheinander und der Unübersichtlichkeit dieser Daten kann zu Problemen führen.
Big Data können als unstrukturiert oder strukturiert kategorisiert werden. Strukturierte Daten bestehen aus Informationen, die von der Organisation bereits in Datenbanken und Tabellenkalkulationen verwaltet werden; sie sind häufig numerischer Natur. Unstrukturierte Daten sind Informationen, die unorganisiert sind und nicht in ein vorgegebenes Modell oder Format fallen. Dazu gehören auch Daten, die aus Social-Media-Quellen gesammelt werden, die Institutionen dabei helfen, Informationen über Kundenbedürfnisse zu sammeln.
Big Data können aus öffentlich geteilten Kommentaren in sozialen Netzwerken und Websites, freiwillig aus persönlicher Elektronik und Apps, durch Fragebögen, Produktkäufe und elektronische Check-Ins gesammelt werden. Das Vorhandensein von Sensoren und anderen Inputs in intelligenten Geräten ermöglicht es, Daten in einem breiten Spektrum von Situationen und Umständen zu sammeln.
Die großen Datensätze werden meist in Computerdatenbanken gespeichert und mit Software analysiert, die speziell für die Verarbeitung großer, komplexer Datensätze entwickelt wurde. Viele Software-as-a-Service (SaaS)-Unternehmen sind auf die Verwaltung dieser Art komplexer Daten spezialisiert.
Verwendung von Big Data
Datenanalysten untersuchen die Beziehung zwischen verschiedenen Datentypen, wie z.B. demographische Daten und Kaufhistorie, um festzustellen, ob eine Korrelation besteht. Solche Beurteilungen können firmenintern innerhalb eines Unternehmens oder extern von einem Dritten durchgeführt werden, der sich auf die Verarbeitung großer Daten in verdauliche Formate konzentriert. Unternehmen nutzen oft die Bewertung großer Daten durch solche Experten, um sie in verwertbare Informationen umzuwandeln.
Nahezu jede Abteilung in einem Unternehmen kann Erkenntnisse aus der Datenanalyse nutzen, von der Personalabteilung über die Technologie bis hin zu Marketing und Vertrieb. Das Ziel großer Daten ist es, die Geschwindigkeit zu erhöhen, mit der Produkte auf den Markt kommen, den Zeit- und Ressourcenaufwand für die Marktakzeptanz und die Zielgruppen zu verringern und sicherzustellen, dass die Kunden zufrieden bleiben.
Vor- und Nachteile von Big Data
Die Zunahme der verfügbaren Datenmenge birgt sowohl Chancen als auch Probleme.
Im Allgemeinen dürfte es den Unternehmen mit mehr Daten über ihre Kunden (und potenziellen Kunden) möglich sein, ihre Produkte und Marketinganstrengungen besser auf ihre Bedürfnisse zuzuschneiden, um ein Höchstmaß an Zufriedenheit und Wiederholungsgeschäften zu erreichen. Unternehmen, die in der Lage sind, eine große Menge an Daten zu sammeln, erhalten die Möglichkeit, tiefere und reichhaltigere Analysen durchzuführen.
Während eine bessere Analyse positiv ist, können große Datenmengen auch zu Überlastung und Lärm führen. Unternehmen müssen in der Lage sein, mit größeren Datenmengen umzugehen und gleichzeitig zu bestimmen, welche Daten im Vergleich zum Datenrauschen Signale darstellen. Die Bestimmung dessen, was die Daten relevant macht, wird zu einem Schlüsselfaktor.
Darüber hinaus können die Art und das Format der Daten eine besondere Behandlung erfordern, bevor man auf sie reagiert. Strukturierte Daten, die aus numerischen Werten bestehen, können leicht gespeichert und sortiert werden. Bei unstrukturierten Daten, wie E-Mails, Videos und Textdokumenten, müssen unter Umständen ausgefeiltere Techniken angewandt werden, bevor sie nützlich sind.
Beispiele für Big Data
BigData hat unvorstellbar viele Anwendungsmöglichkeiten. Überall wo Daten anfallen oder gesammelt werden können, kann eine große Datenbank angelegt werden. Daten können dabei fast alles sein.
- Finanzen und Handel: Die New Yorker Börse generiert pro Tag etwa ein Terabyte neuer Handelsdaten.
- Soziale Medien: Die Statistik zeigt, dass täglich mehr als 500 Terabyte neuer Daten in die Datenbanken der Social-Media-Site Facebook aufgenommen werden. Diese Daten werden hauptsächlich in Form von Foto- und Video-Uploads, Austausch von Nachrichten, Einfügen von Kommentaren usw. generiert.
- Flugzeuge und Verkehr: Ein einziger Jet-Triebwerk kann in 30 Minuten Flugzeit mehr als 10 Terabyte an Daten erzeugen. Bei vielen tausend Flügen pro Tag erreicht die Datenerzeugung bis zu viele Petabyte.
Arten von Big Data
BigData können in drei Varianten vorliegen:
- Strukturiert
- Unstrukturiert
- Semi-strukturiert
Strukturierte Daten
Alle Daten, die in Form eines festen Formats gespeichert, abgerufen und verarbeitet werden können, werden als „strukturierte“ Daten bezeichnet. Im Laufe der Zeit haben Talente in der Informatik größere Erfolge bei der Entwicklung von Techniken zur Arbeit mit dieser Art von Daten (bei denen das Format im Voraus gut bekannt ist) und auch bei der Ableitung von Nutzen daraus erzielt. Heutzutage sehen wir jedoch Probleme voraus, wenn die Größe solcher Daten in großem Umfang zunimmt, typische Größen liegen im Bereich von mehreren Zettabytes.
1021 Bytes entsprechen 1 Zettabyte oder eine Milliarde Terabyte bilden ein Zettabyte.
Wenn man sich diese Zahlen ansieht, kann man leicht verstehen, warum der Name Big Data verwendet wird, und sich die Herausforderungen vorstellen, die mit der Speicherung und Verarbeitung dieser Daten verbunden sind.
Beispiel für strukturierte Daten
Daten, die in einem relationalen Datenbankverwaltungssystem gespeichert sind, wie eine Mitarbeiter-Tabelle eines fiktiven Unternehmens, ist ein Beispiel für strukturierte Daten.
Mitarbeiter_ID | Mitarbeiter_Name | Geschlecht | Abteilung | Gehalt |
---|---|---|---|---|
12345 | Uta Mayer | weiblich | Buchhaltung | 3456 |
12346 | Ralf Koch | männlich | IT | 3457 |
12347 | Ulrike Schmitt | weiblich | Sales | 3458 |
12348 | Frank Becker | männlich | Marketing | 3459 |
Unstrukturierte Daten
Alle Daten mit unbekannter Form oder Struktur werden als unstrukturierte Daten klassifiziert. Abgesehen davon, dass sie sehr groß sind, stellen unstrukturierte Daten eine Vielzahl von Herausforderungen hinsichtlich ihrer Verarbeitung dar, um aus ihnen Wert zu schöpfen. Ein typisches Beispiel für unstrukturierte Daten ist eine heterogene Datenquelle, die eine Kombination aus einfachen Textdateien, Bildern, Videos usw. enthält. Heutzutage stehen Organisationen eine Fülle von Daten zur Verfügung, aber leider wissen sie nicht, wie sie daraus einen Wert ableiten können, da diese Daten in Rohform oder unstrukturiertem Format vorliegen.
Beispiel für unstrukturierte Daten
Die von der Google Suche zurückgegebene Ausgabe ist ein Beispiel für unstrukturierte Daten. Allerdings arbeitet Google daran immer mehr strukturierte Daten in den Suchergebnissen darzustellen.
Semi-strukturierte Daten
Semi-strukturierte Daten können beide Formen von Daten enthalten. Wir können halbstrukturierte Daten als eine strukturierte in Form sehen, aber sie sind tatsächlich nicht z.B. mit einer Tabellendefinition in relationalen DBMS definiert. Ein Beispiel für semi-strukturierte Daten sind Daten, die in einer XML-Datei dargestellt werden.
Beispiel für semi-strukturierte Daten
In einer XML-Datei gespeicherte persönliche Daten:
<rec><name>Hans Förster</name><geschlecht>männlich</geschlecht><alter>35</alter></rec>
<rec><name>Alma Fritz</name><geschlecht>weiblich</geschlecht><alter>41</alter></rec>
<rec><name>Peter Müller</name><geschlecht>männlich</geschlecht><alter>29</alter></rec>
<rec><name>Maya Luft</name><geschlecht>weiblich</geschlecht><alter>26</alter></rec>
<rec><name>Karl Frank</name><geschlecht>männlich</geschlecht><alter>35</alter></rec>
Eigenschaften von Big Data
-
Daten-Volumen – Der Name Big Data selbst bezieht sich auf eine Größe, die enorm ist. Die Größe von Daten spielt eine sehr entscheidende Rolle bei der Bestimmung des Wertes von Daten. Außerdem hängt es vom Datenvolumen ab, ob ein bestimmter Datenbestand tatsächlich als „Big Data“ betrachtet werden kann oder nicht. Daher ist das „Volumen“ ein Merkmal, das beim Umgang mit großen Daten berücksichtigt werden muss.
-
Daten-Vielfalt – Der nächste Aspekt von Big Data ist ihre Vielfalt.
Diese bezieht sich auf heterogene Quellen und die Art der Daten, sowohl der strukturierten als auch der unstrukturierten. In früheren Zeiten waren Tabellenkalkulationen und Datenbanken die einzigen Datenquellen, die von den meisten Anwendungen berücksichtigt wurden. Heutzutage werden auch Daten in Form von E-Mails, Fotos, Videos, Überwachungsgeräten, PDFs, Audio usw. in den Analyseanwendungen berücksichtigt. Diese Vielfalt unstrukturierter Daten wirft bestimmte Probleme bei der Speicherung, der Suche und der Analyse von Daten auf.
-
Geschwindigkeit – Der Begriff „Geschwindigkeit“ bezieht sich hierbei auf die Geschwindigkeit der Generierung von Daten. Wie schnell die Daten erzeugt und verarbeitet werden, um den Anforderungen gerecht zu werden, bestimmt das tatsächliche Potenzial in den Daten.
Big Data Velocity befasst sich mit der Geschwindigkeit, mit der Daten aus Quellen wie Geschäftsprozessen, Anwendungsprotokollen, Netzwerken und Social-Media-Sites, Sensoren, Mobilgeräten usw. einfließen. Der Datenfluss ist massiv und kontinuierlich.
-
Daten-Variabilität – Dies bezieht sich auf die Inkonsistenz, die die Daten zeitweise aufweisen können, wodurch der Prozess der effektiven Handhabung und Verwaltung der Daten behindert wird.
Vorteile der Verarbeitung großer Datenmengen
Die Fähigkeit, große Datensätze zu verarbeiten, bringt zahlreiche Vorteile mit sich. So können Unternehmen sich bei der Entscheidungsfindung externe Informationen zunutze machen. Der Zugang zu sozialen Daten von Suchmaschinen und Websites wie Facebook und Twitter ermöglicht es Unternehmen, ihre Geschäftsstrategien zu optimieren.
Verbesserter Kundenservice – Traditionelle Kunden-Feedback-Systeme werden durch neue Systeme ersetzt, die mit Big Data-Technologien entwickelt wurden. In diesen neuen Systemen werden Big-Data- und natürliche Sprachverarbeitungstechnologien zum Lesen und Auswerten von Verbraucherantworten verwendet.
Weitere Vorteile sind:
- Früherkennung von Risiken für das Produkt/die Dienstleistung, falls vorhanden.
- Bessere betriebliche Effizienz.
Big-Data-Technologien können zum Erstellen eines Bereitstellungsbereichs oder einer Landezone für neue Daten verwendet werden, bevor festgelegt wird, welche Daten in das Data Warehouse verschoben werden sollen.
Darüber hinaus hilft eine solche Integration von Big-Data-Technologien und Data-Warehouse einem Unternehmen, Daten auszulagern, auf die nur selten zugegriffen wird.
Zusammenfassung
- Big Data ist definiert als Daten, die sehr groß sind. Mit dem Begriff Bigdata wird eine Sammlung von Daten bezeichnet, die sehr groß ist und mit der Zeit exponentiell wächst.
- Beispiele für die Generierung von Big Data sind Börsen, Social-Media-Seiten, Flugzeugtriebwerke usw.
- Big Data könnten 1) strukturiert, 2) unstrukturiert, 3) halbstrukturiert sein.
- Volumen, Vielfalt, Geschwindigkeit und Variabilität sind einige Merkmale von Bigdata.
- Verbesserter Kundenservice, bessere betriebliche Effizienz, bessere Entscheidungsfindung sind nur einige Vorteile von Bigdata