Anmerkungen eines Teilchenphysikers zu Big Data (Teil 1 einer kleinen Artikelserie)
Flashback anno 1995:
Ich sitze im Office im Nevis Lab, im Bundesstaat New York, vor meiner Silicon Graphics Workstation (schon damals mit 3D Graphik-Chip ultraschnell) und stelle einen Auftrag zur Datenprozessierung (batch job) über meine Internet-Verbindung zu den Rechnern am DESY in Hamburg her. Parallel surfe ich im Web und freue mich, dass ich seit neuestem über das World Wide Web nicht mehr nur wissenschaftliche Papiere runterladen und studieren, sondern auch dank der Rheinischen Post online fast(!) aktuell die Fusball-Bundesliga-Ergebnisse lesen kann.
So war die Welt damals. In der Teilchenphysik, wo nicht nur Big-Data schon lange ein Thema war und ist, sondern auch das World Wide Web erfunden wurde.
Für meine Doktorarbeit (falls es jemanden interessiert: Experimentelle Analyse der Quantenchromodynamik mittels der Auswertung der tief-inelastischen Erzeugung von Rho-Mesonen in Elektron-Proton-Kollisionen) habe ich Massendaten ausgewertet, oder bulk data, wie die Physiker sagen. Dabei waren die Massen schon damals mindestens vergleichbar mit den Volumina, welche in den meisten heutigen Big-Data-Szenarien eine Rolle spielen. Die Elektronen und Protonen schießen mit nahezu Lichtgeschwindigkeit aufeinander, das ganze gut 10 Millionen mal pro Sekunde. Unterirdische Detektoren – hoch-komplexe modulare Messgeräte, die locker eine ganze Sporthalle füllen – verzeichnen Daten von 500 MB pro Reaktion. Das sind also 0,5 * 10^6 = 500.000 MB, also gut 500 GB an Daten, die pro Sekunde (!) anfallen.
Kein Wunder, dass in den CHEP-Konferenzen (Computing at High Energy Physics) schon damals über Strategien und Architekturen diskutiert wurde, wie Petabyte an Daten schnell gespeichert, archiviert und für die Analyse abgerufen werden können. Heute ist Speicherkapazität um Längen günstiger, Technologien wie Hadoop sind als Open-Source verfügbar und viele der Datenverarbeitungsszenarien von damals können in der Breite Anwendung finden.
Für mich als “Ex” Physiker ist es durchaus erstaunlich, dass ich aus dem Wissen von damals (die meisten der Analysen basierten noch auf FORTRAN-Programmen, Daten wurden auf Magnetbändern von Staging-Robots gespeichert!) noch heute vieles bei der Umsetzung von Big-Data-Projekten ziehen kann. Denn wenn wir von Peta-Byte an Daten sprechen, dann ist das nach einfacher Rechnung nur deshalb möglich, weil wir uns schon damals VOR dem Speichern und Entwickeln von Analysestrategien sehr viel Gedanken darüber gemacht haben, wie wir die Datenmenge vorab auf eine reduzierte Menge an wirklich relevanten Daten herunter filtern konnten.
Hier bedient man sich eines mehrstufigen Triggers, also einem Mechanismus, der in Echtzeit erkennt, ob gewisse Teilchenkollisionsereignisse einem wirklich für das Ziel der Analyse interessanten Ereignis entspringen. Auf diese Weise wird Hintergrundrauschen herausgefiltert und das Speichern unnötiger Daten verhindert. Gerade in der Definition dieser Trigger liegt wesentliches Know-How und ein Schlüssel für effiziente, wirtschaftlich sinnvolle Big-Data-Analysen.
Quality First! sollte auch für Big-Data-Strategien gelten
In aktuellen Big-Data-Szenarien nutzen wir eine ähnliche Systematik, um einen für die jeweilige Analyse optimierten Datenpool aufzubauen. “Quality First!” ist die Devise. Anders als in den Programmen der NSA wie PRISM und XKEYSCORE geht es in legalen Big-Data-Szenarien ja nicht darum, alle maximal möglichen Daten in Echtzeit abzugreifen, sondern von allen über das Internet zugänglichen Informationen diejenigen zur Bewertung heranzuziehen, die für den Business Scope relevant sind. Anders ausgedrückt: während die Geheimdienste offenbar aktuell Daten speichern ohne jeglichen Verdachtsmoment, ermöglicht ein mehrstufiges Trigger-Verfahren den systematischen Aufbau eines hoch-qualitativen Datenmaterials.
Auf Basis der verbleibenden Rein-Daten fahren die Teilchenphysiker alle Arten von Analysen. Die Implementierung von Algorithmen und Nutzung für die Messung von Korrelationen, Signifikanzen, vor allem aber die laufende Prüfung und Validierung von Hypothesen sind täglich Brot eines experimentellen Teilchenphysikers. Damals wie heute. Mehr dazu im dritten Teil.
Es gibt also viele Gemeinsamkeiten zwischen dem, was Teilchenphysiker schon seit Jahrzehnten tun, und dem, was heute unter dem Schlagwort Big Data en vogue ist. Doch es gibt auch fundamentale Unterschiede. Mehr dazu im zweiten Teil meiner kleinen Artikelserie.