, ,

Big Data – vom Hype zum Unternehmensalltag

Big Data – vom Hype zum Unternehmensalltag
Big Data ist in aller Munde – und scheint bereits wieder in der Bedeutungslosigkeit zu verschwinden. Wie gehen Unternehmen heute also mit den Herausforderungen riesiger, dank Cloud-Technologien gesammelter Datenmengen um? Wir zeichnen ein Stimmungsbild.

Sucht man den Begriff „Big Data“ im Hype Cycle des Marktforschungsunternehmens Gartner, muss man schon in das Jahr 2014 zurückgehen. Vor drei Jahren befand sich Big Data also schon in der sogenannten Ernüchterungsphase („Through of Disillusionment“) und verschwand dann ganz vom Radar der durch Gartner erhobenen Trendbegriffe.

Big Data, Gartner, Hype Cycle
Big Data im Gartner Hype Cycle

Sicherlich gab es Erwartungen, die Big Data nicht erfüllt hat. Trotzdem ist das Konzept nicht verschwunden: Wer heute nach Big Data googelt, erzielt 283.000.000 Treffer. Im Vergleich dazu erzielt „IoT“ - ein anderer Trendbegriff - nur 101.000.000 Treffer. Big Data ist nicht mehr „the next big thing“. Vielmehr ist die schnelle Verarbeitung großer Datenmengen und deren Analyse im täglichen Geschäft vieler Unternehmen angekommen.

Was steckt hinter Big Data?

Im Laufe der Zeit hat sich die Definition von Datenmengen als Big Data über die drei Vs etabliert:

  • Volume: Es werden signifikant größere Datenmengen im Vergleich zur relationalen Welt vorgehalten.Big Data-Datenströme und Datenspeicher bilden nicht mehr nur einen Ausschnitt aus der realen Welt ab, sondern nähern sich einer Echtzeit-Darstellung stark an.
  • Variety: Neben der Vielfalt der Datentypen wie Bilder, Text, Audio und Video wird hierüber auch die großen Bandbreite von Datenquellen (Sensor-, GPS-, Log-Daten etc.) bestimmt.
  • Velocity: Eine hohe Frequenz in der Generierung der Daten korreliert mit der Verarbeitung und Bereitstellung in Fast-Echtzeit.

All diese Merkmale erfordern Technologien, die in den letzten Jahren für den Umgang mit großen Datenmengen entwickelt worden. Außerdem beschreiben sie das Potenzial für Unternehmen, das in Big Data steckt.

Der Begriff Big Data löst sich zudem in mehrere Unterbegriffe auf, die zeitweilig an Bedeutung gewinnen oder verlieren. Dazu zählen data discovery, data mining, fast data uvm.

Der Mehrwert

Big Data, IoT, Exponentielles Wachtum
Big Data - Exponentielles Wachtum

Nicht nur das Volumen generierter Daten nimmt zu, sondern auch die Frequenz ihrer Generierung – was wiederum zu exponentiellem Datenwachstum führt. Damit nimmt die Aussagekraft einer spezifischen Datenmenge ab. Interessanter wird also die Betrachtung der Metadaten.

Welche Attribute sind interessant und aussagekräftig für das Business?

Es gilt Korrelationen zu Geschäftszahlen zu finden, die nicht auf den ersten Blick ersichtlich sind. Ausgehend von einer Hypothese betrachtet man den Einfluss einer Variable in der Vergangenheit, nehmen wir als Beispiel das Kaufverhalten. Bei dieser Analyse können weitere Variablen auftreten, die ebenfalls mit dem Kaufverhalten oder der analysierten Variable korrelieren (data mining). Die Analyse kann bspw. offenbaren, dass die Tageszeit oder Social-Media-Trends Einfluss auf das Kaufverhalten nehmen und dieses einfacher vorhersagen lassen.

Haben wir Schlüsselvariablen identifiziert, mit denen wir ein aussagekräftiges Modell unserer Daten abbilden können, gilt es den eigentlichen Mehrwert aus den Daten zu ermitteln:

  • Können wir Erkenntnisse aus den Daten gewinnen, die nicht auf den ersten Blick ersichtlich waren?
  • Lässt sich ein Nutzerverhalten vorhersagen?
  • Können wir weitere Schlüsselvariablen in unseren Daten identifizieren?

So werden die Aussagekraft unseres Modells kontinuierlich verbessert und Zusammenhänge offensichtlich, die mit klassischen Analyse-Methoden zumeist nicht zu ergründen waren. Aus dem Geflecht von Korrelationen werden die Einflussfaktoren auf die Unternehmens-KPIs ermittelt. Denn dann kann das Variablen-Set auf die Variablen reduziert werden, mit denen man - ohne Berücksichtigung anderer Daten - den Großteil der Ergebnisse erzielt. Dieser Schritt reduziert den Berechnungsaufwand und spart somit Kosten.

Die Aktualität

Ein aussagekräftiges Modell ist also notwendig, um überhaupt Nutzen aus Big Data zu ziehen. Dabei werden Daten betrachtet, die mehr oder weniger in der Vergangenheit generiert wurden. Log-Files, Clickstreams, Finanztransaktionen oder Sensor-Daten werden jedoch kontinuierlich generiert. Ein besseres Bild ergibt sich also, wenn man diese kontinuierliche Generierung von Daten in der weiteren Verarbeitung reflektiert.

Hier kommen Technologien wie Stream-Processing und Stream-Analytics, zusammengefasst unter dem Begriff fast data ins Spiel. Nach den Prinzipien der Lambda-Architektur wird eine Batch-Verarbeitung der Daten kombiniert mit einer Echtzeit-Analyse auf dem Input-Stream.

Big Data, Batchverarbeitung, Lambda-Architektur
Batchverarbeitung nach den Prinzipien der Lambda-Architektur

In der Batchverarbeitung werden die Daten unveränderlich in ein ständig wachsendes Dataset geschrieben. Die gesammelten Daten werden u.a. voraggregiert, um die Latenz bei der Abfrage zu verringern. Trotzdem werden die Daten in diesem Batch-Layer aufgrund der Batch-Verarbeitung nie ganz aktuell sein. Parallel dazu wird mit Stream-Analytics ein Layer bereitgestellt, um die Lücke bis hin zu Echtzeit-Abfragen zu schließen. Im Gegensatz zu dem Batch-Layer ist hier zumeist der Datendurchsatz begrenzt. Zudem sind die Daten zum Zeitpunkt der Abfrage gegebenenfalls noch nicht vollständig oder korrekt berechnet.

Der Ausblick

Public Cloud Provider stellen eine Vielzahl von Services zur Verfügung, um solche Systeme zu entwickeln. Ebenso existiert in der Open Source Welt ein umfangreiches Ökosystem von Frameworks zur Echtzeit-Analyse von Datenströmen.

Die Lambda-Architektur trug unter anderem dem Umstand Rechnung, dass Stream-Processing Systeme in der Vergangenheit Probleme mit Daten-Konsistenz hatten. Mit der fortschreitenden Entwicklung von Stream-Processing Systemen wird die Notwendigkeit der Lambda-Architektur zunehmend in Frage gestellt. Damit soll auch der Wartungsaufwand, den Lambda-Architekturen mit sich bringen, reduziert werden. Big Data ist somit kein Hype Thema mehr. Im Zusammenhang mit sich parallel entwickelnden Technologien werden jedoch immer mehr Potentiale Big Data getriebene Anwendungsfälle für den Unternehmensalltag gehoben.


Über den Autor des Beitrags:

Claas Wunderlich

Leave a reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.