Das divia Blog

Die Beschreibung der Welt: Zu groß für Big Data

Geschrieben von Dr. Martin Reti | 13. Juli 2015

Man muss schon genau hinschauen, wenn die Diskussion auf Big Data kommt. Die einen läuten schnell die Alarmglocken und reden über die Beschneidung der Persönlichkeitsrechte, den gläsernen Verbraucher und den Überwachungsstaat. Die anderen reden von unbegrenzten Business-Möglichkeiten, Kostenersparnissen, Effizienzgewinnen und – ja, auch – dem alten Menschheitstraum, die Zukunft zu kennen. Oder zumindest die Gegenwart zu begreifen. ;)

Fernab von allen wertvollen, aber auch an den Haaren herbeigezogenen Einsatzszenarien im geschäftlichen Alltag ist die Wissenschaft immer noch das Maß der Dinge für Big Data. Und eine der Naturwissenschaften bietet durchaus Businesspotenzial für findige Big-Data-Dienstleister.

Big Data, Smart Data

Das Phänomen Big Data ist zurzeit hip. Einige Zungen reden, nicht nur um sich abzugrenzen, schon von Smart Data. Der Grund: Datenmengen (Big Data) bringen allein für sich weder Sinn noch Mehrwert. Sie sind wie eine schöne, große Bibliothek, die aber nur demjenigen Gewinn bringt, der sie zu nutzen versteht. Auf der anderen Seite ist aber schon allein das "Big" eine Herausforderung. Denn Bibliotheken haben eben nur begrenzten Speicherraum. Die Herausforderung im Big-Data-Themenkomplex besteht also darin, die schieren Datenmengen aufzunehmen und zu speichern ("Big"-Komponente) sowie sie geschickt auszuwerten bzw. zu benutzen ("Smart"-Komponente). Beide Teile haben ihre Tücken und Herausforderungen.

Daten daheim, Daten im Netz. Hauptsache immer mehr

Die älteren unter uns erinnern sich noch an Expansion-Interfaces für TRS80-Rechner mit einer gewaltigen Kapazität von 64 Kilobyte (!). Wenige Jahre später, Ende der 80er, hatten die Rechner der neueren Generation schon die ersten Festplatten mit 20 MB Speichervolumen. Über Gigabyte-USB-Sticks hinweg entwickelten wir uns zu privaten Datenträgern in der Größenordnung von Terabytes. Für alle diejenigen, die diese Art zu speichern immer noch vorziehen. Die anderen lagern ihre Daten freiwillig kostenpflichtig und kostenlos in Onlinespeicher aus, die in den riesigen Rechenzentren von Google, Microsoft, Amazon und Co. stehen. Der andere Teil der Daten liegt in den Rechenzentren der Anbieter, die unser tägliches Tun und Treiben im Web begleiten: Facebook, Twitter und achja, schon wieder Google ;)

Die Consumer-Datenexplosion – das Maß der Dinge?

Das war jetzt nur der Blick in unser ganz privates Universum der Datenexplosion. Exemplarisch dafür stehen die 300 Stunden Video-Upload bei Youtube – pro Minute. Gerne sind wir damit zufrieden und meinen die Quelle der Datenexplosion gefunden haben. Doch die wahren Datenmonster sitzen da, wo sie immer schon waren: in der Wissenschaft. Nicht umsonst wurden Internet und Computing Grid am CERN erfunden. Das Video hier (übrigens ganz großes Storytelling!) erzählt in sechs Minuten die große Welt der IT bis hin zu Big Data.

Big Data – Domäne der Wissenschaftler

In der Teilchenphysik macht die IT noch heute – trotz ihrer nicht unbestrittenen Fähigkeiten – Grenzerfahrungen. Wenn am Large Hadron Collider bei Genf Kleinstteilchen aufeinander prallen, erfassen 20 Millionen Sensoren 600 Millionen Vorgänge. Pro Sekunde. Und das sind Daten von 2007. Entspricht etwa 10 Petabyte. Diese Menge zu in dem kurzen Zeitraum zu erfassen ist eines griechischen Helden oder wahrscheinlich eher eines Scotty würdig.

Weißt Du, wie viel Sternlein stehen?

Big Data als Domäne der Teilchenphysik. So was können Astronomen natürlich nicht auf sich sitzen lassen: Ab 2022 wollen Forscher am Large Synoptic Survey Telescope (LSST) in Chile zehn Jahre lang systematisch den Nachthimmel fotografieren. Jede Nacht entstehen 2.000 Bilder mit mehr als 15 TB Daten. Die es in der Folge natürlich auszuwerten gilt, so dass Forscher gezielt damit arbeiten können. 37 Milliarden Objekte soll der Katalog letzten Endes umfassen. 500 Petabyte Speicherbedarf alles in allem. Das wird zwar an das CERN nicht ranreichen, entspricht aber immer noch einer Datenmenge von 100 Millionen DVDs. Damit sind zahlreiche entspannende Videonächte gesichert ;).

In einem anderen astronomischen Mammutprojekt sollen die Daten von 260.000 Antennen zusammengeführt werden, die über die ganze Welt verteilt sind. Hier ist momentan noch nicht absehbar, wie die IT diese Herausforderung stemmen kann.

Die Gene kommen

Anschauliche Projekte, die gut illustrieren, was "Big Data" wirklich bedeutet: Wenngleich Variety (Varianz der Datenart) hier etwas kürzer kommt, aber Velocity (Geschwindigkeit) – nicht nur in der Verarbeitung, auch in der Aufnahme der Daten – und vor allem Volume (pure Masse). Aber Massengeschäft für Big Data. Immerhin kommen nur die wenigsten Unternehmen oder Menschen auf die Ideen Elementarteilchen oder Sterne zu analysieren.

Anders verhält sich das in der Biologie bzw. Medizin. Gen-Analysen kommen immer mehr in Mode, auch weil die technischen Möglichkeiten zur Sequenzanalyse des Erbguts in den letzten Jahren dramatische Fortschritte gemacht haben. Spezielle Anbieter haben daraus bereits ein Geschäft gemacht und bieten Teilanalysen des Genoms für 99 Dollar an. Die Kosten für eine komplette Sequenzanalyse sind abgestürzt von 10 Mio. US-Dollar 2007 auf gegenwärtig noch 10.000 US-Dollar.

Dabei werden 1,80 Meter Erbgut durchsucht, 3,27 Milliarden Basenpaare. Das entspricht etwa 743 MB. Bereits heute verdoppelt sich der genetische Datenbestand alle sieben Monate. Wenn nun zusätzlich Nationen wie China und die USA große Programme zur Typisierung ihrer Bevölkerung auflegen, bekommen Gen-Analysen nochmals einen weiteren Schub.

Experten erwarten ab 2025 jährlich zwischen 2 und 40 Exabyte an neuen Gendaten. Schon allein das stellt das Youtube-Wachstum locker in den Schatten. Und sogar die Teilchenphysik streckt da die Waffen. Und dann gibt es noch Tiere, Pflanzen, Mikroben, für deren Gengut-Analyse keine Datenschutzbestimmungen oder Persönlichkeitsrechte gelten ... Klingt, als ob da eine Goldgrube für Big-Data-Anbieter zu entdecken wäre.

Auch das ist natürlich digitale Transformation. Nicht nur der Aufbau eines zweiten virtuellen Lebensraums, sondern auch die digitale Abbildung unserer physischen Welt. Oder zumindest deren digitale Archivierung. Damit überleben wir dereinst nicht nur als Facebook-Profile, sondern auch als Daten.  

Weiterführend zum Thema:

http://www.divia.de/blog/2014/09/04/big-data-und-die-beherrschung-der-datenexplosion