Was Sie über Big Data wissen müssen

Menschen und Maschinen produzieren unvorstellbare Mengen an Daten. 16,3 Zetabyte sind es derzeit pro Jahr, die Zahl wird sich bis 2025 verzehnfachen. „Big Data“ ist ein extrem wertvoller Rohstoff. Und es verändert die Art unserer Kommunikation: Wir geben immer mehr Informationen über uns preis. Das hat Vor- und Nachteile.

Mittagspause: Wir zücken das Smartphone und checken in verschiedenen Apps, was wir verpasst haben. Spontan bestellen wir noch schnell etwas in einem Online-Shop. Eine Push-Nachricht hat uns gerade mitgeteilt, dass der Ski-Helm, für den wir uns interessieren, ausgerechnet jetzt stark reduziert ist. Was nach einem glücklichen Zufall aussieht, ist in Wahrheit höhere Mathematik, Analyse-Handwerk und zielgerichtetes Marketing in einem: Big Data in der Praxis.

Rund um den Globus produzieren Menschen und Maschinen ununterbrochen Unmengen an Daten – im Internetbrowser, in sozialen Netzwerken, beim Autofahren, beim Bezahlen mit Karte, beim Online-Shoppen, beim Telefonieren mit dem Smartphone und vieles mehr.

Gleichzeitig überwachen Kameras die Städte, Smart-Metering-Systeme messen den Stromverbrauch, Börsentransaktionen laufen über Computer, medizinische Geräte erfassen Gesundheitsdaten, vernetzte Autos sind mit dem Internet verbunden.

Was ist Big Data?

Jeder der rund 8 Milliarden Erdenbewohner bräuchte zur Speicherung seiner persönlichen Datenmenge 44 Gehirne. (Quelle: KPMG, PM-MAGAZIN)

Für diese Masse an Daten steht der Begriff Big Data – in Deutschland passenderweise auch Massendaten genannt. Gemeint sind damit Datenmengen, die zu groß, zu komplex, zu schnelllebig und auch zu wenig strukturiert sind, um sie mit einem Standard-Computer zu bearbeiten.

Denn nach dem Sammeln folgt das Auswerten der Daten, um daraus Erkenntnisse zu gewinnen. Das ist das eigentliche Ziel: einen Nutzen aus den Informationen zu ziehen. Besonders im Marketing ist Big Data gleichzeitig Synonym für die Big-Data-Analyse.

Big Data in der Praxis

Drei Haupteigenschaften definieren Big Data: Volumen, Vielfalt und Geschwindigkeit. Mit der zunehmenden Digitalisierung wächst die Datenmenge stetig und mit immer rasanterer Geschwindigkeit. Aktuell werden jedes Jahr 16,3 Zetabyte an Daten produziert und erfasst. Ein Zetabyte sind eine Milliarde Terabyte. Bis ins Jahr 2025 wird sich diese Zahl auf 163 Zetabyte erhöhen, so eine Studie von IDC und Seagate. Ausgeschrieben sieht das so aus: 163.000.000.000.000.000.000.000 Byte.

Um diese schiere Menge an Daten zuverlässig speichern zu können, werden ganze Serverfarmen benötigt. Energieeffiziente Halbleiter von Infineon sorgen dafür, dass die Kosten für die Stromversorgung von Serverfarmen deutlich reduziert werden.

In Zukunft wird das Datenvolumen in Yottabyte gemessen, das ist eine Zahl mit 24 Nullen. Dieses rasante Wachstum hat mit der zunehmenden Vielfalt an Daten zu tun. Anfangs lagen digitale Daten vor allem in Form von Zahlen und Dokumenten vor. Mit der Erfindung des Internets und digitalen Kameras kamen Foto-, Audio- und Webdaten dazu. Seit es Handys, Smartphones, YouTube und Netflix gibt, fallen außerdem mobile Daten, Informationen aus sozialen Netzwerken und Streaming-Diensten an. Und nun speisen außerdem Geräte, die zum Internet der Dinge zählen, die Datenmenge, etwa Fitnessarmbänder, intelligente Thermostate oder vernetzte Autos.

Ein weiterer Unterschied zu den Anfangsjahren des digitalen Zeitalters ist die Geschwindigkeit, in der Daten zugänglich sind. Zunächst wurden sie gebündelt, dann periodisch zusammengefasst, mittlerweile sind Daten in Echtzeit verfügbar.

Doch die vielen Daten sind zunächst nur gesammelte Informationen. Brauchbar werden sie erst, wenn sie schnell verarbeitet und richtig analysiert werden. Dann bringt Big Data Vor- und Nachteile. Aber für wen eigentlich?

Die Vorteile und Bedeutung von Big Data

Big Data spielt in immer mehr Bereichen des Lebens eine wichtige Rolle. Wissenschaftler untersuchen mit Hilfe von Daten den Klimawandel oder das Entstehen von Erdbeben und Epidemien. Behörden und Geheimdienste forschen in riesigen Datenmengen nach Auffälligkeiten, die Terroristen verraten könnten. Gesammelt werden inhaltliche Daten, Metadaten, Transaktionsdaten, Verhaltensdaten, Gesundheitsdaten, Finanzdaten, Messergebnisse und Überwachungsdaten. Diese sind interessant für Börse, Kernphysik, Regionalverkehr, Telekommunikation, Marktforschung, Energieversorgung, Versicherungsunternehmen, Handelsketten, Automobilbranche, Kriminalistik, Terrorismusbekämpfung und Marketing.

Mit den Daten aus der Gegenwart werden Prognosen für die Zukunft erstellt. Hier kommt die Big-Data-Analyse ins Spiel, auch Data Mining genannt.

Wie Big Data funktioniert und in der Wirtschaft genutzt wird

Der Onlinehändler Amazon kümmert sich in seinem Entwicklungszentrum in Berlin um Machine Learning und Predictive Analytics. Spezialprogramme bewerten bisherige Einkäufe ebenso wie Social- Media-Posts. Sie erkennen den individuellen Stil des Kunden und berücksichtigen, was demnächst in Mode sein wird. Dieses Wissen wird genutzt, um personalisierte Produktempfehlungen zu versenden.

Google und die Grippewelle

Es geht dabei immer um das Finden von Korrelationen in großen Datenmengen, wo der menschliche Verstand keine Zusammenhänge erkennen würde: Google leitet aus bestimmten Suchanfragen die Verbreitung von Grippe ab. Die Idee: Menschen informieren sich erst dann über die Krankheit, wenn sie selbst oder die Familie betroffen sind. Eine Analyse von Suchanfragen und Krankheitsdaten ergab tatsächlich einen Zusammenhang: Google konnte den Verlauf der Grippewelle bis zu zwei Wochen früher als Gesundheitsbehörden voraussagen. Allerdings klappte das nicht jedes Jahr gleich gut.

Landwirte nutzen Felder und Ställe optimal

Ein anderes Beispiel stammt aus der Agrarwirtschaft. Auch Landwirte digitalisieren ihre Betriebe immer mehr. Big Data hilft ihnen, Felder und Ställe optimal zu nutzen. Damit nicht zu viel bewässert wird, zeichnen Sensoren auf, wie feucht die Böden sind. Über das gesamte Feld hinweg kann so jeder Quadratmeter andere Mengen an Wasser und Düngemittel erhalten. Bei Kühen werden Daten gemessen, die Aufschluss über Besamungsbereitschaft und Gesundheitszustand geben. So sollen Zeit gespart und Krankheiten frühzeitig erkannt werden.

BMW und Big Data in der Produktion

Auch der Autobauer BMW setzt bei der Produktion auf Big Data: So werden Karosserieteile mit einer ID versehen, die dann die Feinjustierung der Pressen erlaubt. Diese reagieren somit auf die jeweilige Blechstärke, Festigkeit oder die Oberfläche, Risse werden vermieden.

Größte Datenproduzenten heute

Die USA, Westeuropa, China und Indien produzieren um ein Vielfaches mehr Daten, als der Rest der Welt zusammen.(Quelle: KPMG, "Going beyond the Data")
Big Data in der Praxis: US-Wahl 2016

Big Data in der Praxis: US-Wahl 2016

Donald Trump hat die US-Wahl auch mit Hilfe von Big Data gewonnen, glauben viele. Denn mit genauem Targeting war es möglich, Wähler bei Facebook oder Twitter gezielt und schnell anzusprechen. Wer auswertet, was Nutzer mit „Gefällt mir“ markieren oder worauf sie reagieren, kann ihnen maßgeschneiderte Informationen liefern. Das ist die Alternative zur klassischen Wahlwerbung: Statt dieselbe Botschaft in einer Broschüre für alle zu drucken oder die immer gleichen Anzeigen im Fernsehen zu schalten, werden Nutzer gezielt ins Visier genommen. Angeblich soll Trumps Kampagne mit Hilfe der Firma Cambridge Analytica noch weiter gegangen sein – mit sogenannten „Dark Ads“. Diese Form extrem personalisierter Werbung auf Facebook soll nicht nur mit Big Data arbeiten, sondern auch mit der Auswertung von Psychogrammen. Die Meinung über Hillary Clinton etwa wurde angeblich so manipuliert: Afroamerikanerinnen, die mit ihr sympathisierten, bekamen ein Video zu sehen, in dem Clinton schwarze Männer als Raubtiere bezeichnet. Ob Cambridge Analytica und die „Dark Ads“ wirklich eine so große Rolle im Wahlkampf spielten, ist aber offen.

Von Big Data zu Smart Data

Big Data sind riesige Datenmengen, die mit bisherigen Methoden nicht analysiert oder verarbeitet werden können. Häufig fallen sie in Echtzeit an. Smart Data hingegen geht über diesen Begriff hinaus. Hier geht es um aus Big-Data-Datenbeständen ermittelte nutzbringende, abgesicherte und hochwertige Daten. Big Data ist also die Datenbasis, eine Art Rohstoff, den es aufzubereiten gilt, damit er zu Smart Data veredelt werden und sein gesamtes wirtschaftliches Potenzial entfalten kann.

Um die chaotische Flut an Daten zu ordnen, sind intelligente Algorithmen notwendig. Denn aus Big Data muss Smart Data werden: Zunächst handelt es sich ja nur um gewaltige Datenmengen. Doch die bringen niemandem etwas, solange sie nicht ausgewertet werden, erst dann sind es hochwertige Daten. Die Algorithmen sollen Muster und Aussagen aufspüren, die Analysten anschließend deuten und auswerten. In Unternehmen sollen so Schwachpunkte etwa in der Produktion entlarvt und verbessert werden. Das kann Wettbewerbsvorteile gegenüber der Konkurrenz verschaffen.

Konzerne profitieren von der Sammlung und Auswertung, wie das Wirtschaftsministerium und das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme feststellen. Denn:

  • Mehr Echtzeitanalyse führt zu optimierten Abläufen und damit zu effizienterer Unternehmensführung.
  • Wenn Systeme aus Massen Menschen mit individuellen Bedürfnissen herausformen, können persönlich zugeschnittene Services angeboten werden.
  • Produkte mit bereits integrierter Big-Data-Intelligenz verarbeiten Daten selbständig und kommunizieren sie weiter.

Vorteile für Konsumenten

Big Data verschafft auch Konsumenten Vorteile. Fitnesstracker und -Apps liegen im Trend: Mit deren Hilfe überwachen Nutzer sportliche Aktivitäten, den Schlafrhythmus, die Zuckerwerte, den Blutdruck, die Essgewohnheiten und vieles mehr. Die Informationen werden ausgewertet, die Tools geben Tipps für ein gesundheitsfördernderes Verhalten.

Konsumenten können mit Big Data zudem Geld sparen. Etwa dann, wenn sogenannte Smart Meter den Stromverbrauch aufzeichnen und herausfinden, wann unnötig Energie gezapft wird. Oder wenn Online-Shops Vorlieben und Gewohnheiten speichern und daraus individuelle Gutscheine oder Angebote erstellen. Kein Geld, aber Nerven sparen Menschen in Smart Cities, in denen Verkehrsdaten in Echtzeit ausgewertet werden. Damit werden Staus vermieden und alternative Routen für Fahrgäste und Autofahrer vorgeschlagen. Vernetzte Autos können zudem im Notfall selbständig bremsen und Unfälle automatisch melden.

Big Data und Datenschutz

Wie viel Transparenz wollen wir?

Bei Big Data gibt es immer zwei Seiten: Eine, die Daten produziert und eine andere, die sie auswertet und anwendet. Industrie und Wissenschaft profitieren von Big Data. Aber welchen Preis zahlen Anwender, deren Daten in die Analysen einfließen? Dieser Gedanke beinhaltet zwei Aspekte: Erstens sind Konsumenten sich oft nicht darüber im Klaren, welche Informationen sie sorglos preisgeben und zu was diese genutzt werden können. Zweitens werden sie oft nicht um Einverständnis für die Verwendung der Daten gebeten.

Das Geburtsdatum in Verbindung mit dem Wohnort, die Geräteerkennung des Smartphones, Cookies im Browser, IP-Adressen, Chat- und Textnachrichten sowie eigenen Posts und Profile in sozialen Netzwerken: All das addieren smarte Tools zu einem umfassenden Bild jedes Einzelnen. Selbst wenn Datensätze anonymisiert sind, lassen sie sich leicht wieder den ursprünglichen Personen zuordnen. Was bleibt, sind sehr „transparente“ Nutzer. Und die werden dann in Kategorien einsortiert – zum Beispiel von Versicherungen und Banken, bevor sie eine Police oder einen Kredit verhandeln, oder von Arbeitgebern auf der Suche nach neuen Mitarbeitern.

Einwände gegenüber Big Data

Einwände gegenüber Big Data

Datenschützer wie der Verein Digitalcourage sehen im Einsatz von Big-Data-Analysen Gefahren: Daten würden missbraucht, das Persönlichkeitsrecht verletzt und Menschen diskriminiert, sobald sie in ein errechnetes Raster fallen. Denn dass Rechenergebnisse und Wirklichkeit sich decken, ist nicht garantiert. Daten sind immer quantitativ, ohne Kontext bleiben sie relativ bedeutungslos.

Zugleich ist in den Daten alles Mögliche enthalten, auch sensible Informationen. Das verleiht demjenigen Macht, der sie auswertet. Facebook programmiert Algorithmen so, dass Nutzer automatisch nur Dinge sehen, die ihre Weltsicht bestätigen. Auch bei Google sind Suchergebnisse eingefärbt – dank der Algorithmen der Suchmaschine und der Anfragen, die der Nutzer vorher selbst gestellt hat. Im Wortschatz der Fachleuchte heißt das „Filterblase“.

Das europäische Datenschutzrecht legt immerhin fest:  Daten dürfen nur zu dem Zweck und innerhalb des Angebots verwendet werden, bei dem sie auch gesammelt wurden. Das ist das Prinzip der Zweckbindung. Damit dürfen zum Beispiel nicht die Bestelldaten einer Pizzeria mit denen eines vernetzten Autos gekoppelt werden, um Kunden im Vorbeifahren Angebote zu unterbreiten.

Bei vielen Konsumenten fehlt noch ein Bewusstsein dafür, was die Preisgabe von Informationen bedeutet. Jeder sollte sich darüber im Klaren sein, dass „nur nicht-erhobene Daten sichere Daten sind“, meint der Verein Digitalcourage.

Verbraucherschützer mahnen aber auch, Big Data und Datenschutz nicht gegeneinander auszuspielen. Die Analysen könnten ein riesiger Gewinn für Verbraucher sein, wenn etwa vernetzte Autos automatisch Unfälle meldeten oder Staus umfahren. Andererseits könnten alle, die Daten besitzen, Konsumenten manipulieren und kontrollieren. Der Verbraucherzentrale Bundesverband (vzbv) setzt sich deshalb dafür ein, dass der Einzelne immer selbst darüber entscheiden kann, welche Daten er preisgibt und wie diese Daten verwendet werden dürfen.

Entwicklung und Zukunft von Big Data

Ob mit Datenschutz-Richtlinien oder ohne, Big Data wird in Zukunft noch „bigger“ werden. Daten sind das Gold der Zukunft. Die Effizienz der Daten-Analysen wird sich weiter verbessern und immer mehr Unternehmen werden auf die Auswertung von Daten setzen, um mithalten zu können. Spezialisten, die Big Data richtig analysieren und interpretieren, werden noch begehrter werden.

Schon jetzt gibt es Algorithmen zur Gesichtsrekonstruktion. So ist es möglich, Profilbilder aus sozialen Netzwerken und ein medizinisches MRT-Bild abzugleichen. Ebenfalls bald im Einsatz sollen erste Textmining-Algorithmen sein, die Sätze in Internetforen einer Person zuordnen können. Im Trend liegt, Big Data und künstliche Intelligenz zu kombinieren. Roboter und Maschinen werden so programmiert, dass sie selbständig dazulernen („Machine Learning“). Dadurch sind sie in der Lage, Daten selbst schnell aufzubereiten und darauf zu reagieren. Vernetzte Autos und das autonome Fahren sind dafür Beispiele.

Ebenso im Kommen ist „Contextual Awareness“ auf Mobilfunkgeräten. Apps werten dazu bestimmte Informationen aus und wissen anschließend, was der User als nächstes braucht. Tippt dieser beispielsweise den Namen eines Kunden ein, ruft das Gerät sofort alle vorherigen E-Mails und Termine mit dem Geschäftspartner auf – oder bietet an, ihn anzurufen.

Big Data bringt Nutzern viele Vorteile und neue Möglichkeiten. Die Herausforderung ist, die Chancen zu nutzen, aber die Risiken nicht aus den Augen zu verlieren. Dazu kann jeder Nutzer selbst beitragen: mit einem bewussten und achtsamen Umgang mit eigenen Daten.

Big-Data-Technologien, die Sie kennen sollten

Big-Data-Technologien, die Sie kennen sollten

Um Protokolle von Webservern, Social-Media-Aktivitäten, Einzelverbindungsnachweise für Mobiltelefone und Informationen von Sensoren auszuwerten, verwenden Unternehmen oft folgende Programme: Quelloffene Software-Frameworks (Apache Hadoop, Spark, NoSQL-Datenbanken, Map Reduce), Datenbanksysteme (Big Table, Cassandra), Graph-Datenbanken und Distributed File Systems.