Im ersten Teil meines Beitrags “Von Teilchenzoo zum Themenzoo” hatte ich kurz reflektiert, wie aktuelle Analysekonzepte im Bereich Big Data lediglich Entwicklungen aufgreifen, die bereits vor 20 Jahren im Bereich der Elementarteilchenphysik en vogue waren. Enthält der ganze Hype um Big Data also nichts wirklich relevant Neues? Und welche Rolle spielen die Fussball-Bundesliga Ergebnisse in diesem Rückblick?
Unterschiede gibt es sicher viele. Betrachten möchte ich jedoch ganz speziell eine spannende Umkehrung in der Abhängigkeit von zwei Technologien, die im Rahmen der Teilchenphysik-Forschung entwickelt wurden: des World Wide Web (WWW) auf der einen – und Massendaten-Analysen auf der anderen Seite. Das WWW ist eine Erfindung von Tim Bernres-Lee aus den 90 Jahren. Heute eine der wichtigsten Anwendungen des Internets für die internet-gestützte Kommunikation war es damals motiviert durch die Erfordernis der weltweit verstreuten Teilchenforscher-Community Ihre Ergebnisse schnell publizieren und referenzieren zu können. Teilchenanalysen (Big Data) waren der Gegenstand der Betrachtung – oder anders gesagt – der Inhalt der Kommunikation über das WWW. Und schnell wurde deutlich, dass sich das WWW natürlich für die Publikation beliebiger Inhalte eignet, siehe die von mir über den große Teich einfach zugänglichen Ergebnisse der Fussball-Bundesliga.
In vielen der aktuellen Big-Data-Projekten, die wir betreiben, erleben wir eine interessante Umkehrung: die Big-Data-Analysen haben die Auswertung der Kommunikation zum Ziel. Inzwischen ist es das WWW selbst, über das Massen von Daten – insbesondere unstrukturierte Informationen – zugänglich gemacht werden. Und wir profitieren von Techniken der Datenanalyse, um genau diese Kommunikation systematisch auszuwerten und in konkreten Business-Lösungenen daraus einen Nutzen zu ziehen. Weil die Analysen aufzeigen was Kunden wünschen, wohin sich Märkte entwickeln und in welcher Form ein Unternehmen darauf am besten reagieren sollte.
Interessanterweise kommt bei der Auswertung der web-basierten Kommunikation auch noch ein erweiterter Standard des WWW selbst zum Einsatz. Nämlich semantische Graphen in Form von RDF. Ein Konzept, das Berners-Lee bereits mit der Konzeption des WWW vorausgedacht hatte. Dies ist ein schönes Beispiel dafür, wie sich verschiedene Technologien gegenseitig bedingen und befruchten, und am Ende sogar in einer Weise die nicht unbedingt voraus zu sehen war.
Der größte Unterschied zwischen Big Data wie ich es vor 20 Jahren betrieben habe und heute ist jedoch, dass für Big-Data in der Teilchenphysik galt: “von Experten für Experten”. Niemand sonst konnte etwas damit anfangen. Heutzutage dagegen verschwindet die Komplexität unter der Haube und ermöglicht den Einsatz von Big-Data-Techniken “von Experten für Anwender” in Unternehmen.
Bei allen Unterschieden gibt es jedoch ein weiteres verbindendes Element: alle noch so cleveren Analysetechniken dienen nur einem Ziel – zu wissen was wirklich wahr, richtig und wichtig ist. Was das für die Arbeitsweise von Physikern sowie andererseits von Informationsarchitekten in Big-Data-Analysen bedeutet, darüber lüfte ich den Schleier im letzten und abschliessenden Beitrag meines Ausflugs in meine Physiker-Vergangenheit.