Das Thema Data Mining ist dank der NSA-Affäre seit einiger Zeit sehr negativ besetzt. Die Furcht vor den “Datenkraken” sitzt in der Bevölkerung tief. Gleichzeitig herrscht aber eine große Unsicherheit – und auch Unkenntnis – darüber, wie man seine Daten wirklich sinnvoll schützen kann. Zudem wird in der Diskussion vergessen, was Data Mining in vielen Bereichen leisten kann. Beispielsweise im Predictive Policing, also der vorausschauenden Polizeiarbeit. Wie die ZEIT berichtet, widmet sich das Bundeskriminalamt (BKA) aktuell verstärkt dem Thema Data Mining – und dem “Blick in die Glaskugel”.
Data Mining: die Bergleute der digitalen Welt
Das Wörtchen “Mining” kann auch direkt mit Bergbau übersetzt werden. Insofern ist der Definitionsvorschlag auf Wikipedia gar nicht so abwegig: Hier wird Data Mining “wörtlich etwa: ‘Daten-Bergbau’, sinngemäß: ‘aus einem Datenberg etwas Wertvolles extrahieren’” übersetzt. Insofern sind Data Analysten die Bergleute der digitalen Welt – und tappen dabei oft genauso im Dunkeln wie die Kumpel unter Tage.
Das liegt nicht nur an der Vielfalt der Daten. Als Problem identifizieren Experten wie Stefan Conrad, Gunter Saake und Kai-Uwe Sattler in ihrem Aufsatz „Informationsfusion – Herausforderungen an die Datenbanktechnologie“ die Tatsache, dass „viele Datenbestände zum Teil anarchisch gewachsen sind und demzufolge heterogen (sowohl bezüglich der Struktur als auch der Repräsentation) sind sowie Redundanzen und Inkonsistenzen enthalten“. Dazu kommt, dass die „Datenbestände oft auch Informationen, die nicht explizit abgelegt sind, sondern sich in Form von Abhängigkeiten, Beziehungen oder Mustern über die einzelnen Quellen hinweg repräsentieren“.
Technologien zum Data Mining müssen also verschiedene Verfahren beherrschen, um vorhandene Daten nicht nur auszuwerten, sondern treffsichere Schlüsse daraus zu ziehen. Stefan Conrad und seine Co-Autoren liefern hierzu eine passende Übersicht. Zu den Verfahrensklassen zählen:
- Das Erkennen statistischer Abhängigkeiten
- Klassifikationsverfahren, um Objekte den passenden Klassen zuzuordnen. Hierbei spielen Beispielmengen, sogenannte Trainingssets, in Datenbanken eine Rolle
- Clustering ähnlicher Objekte
- Generalisierung, also “Methoden zur Aggregation und Verallgemeinerung großer Datenmengen auf einer höheren Abstraktionsebene”.
- Sequenzanalysen, um “häufig auftretende Episoden oder Ereignisfolgen in Datenbeständen aufzudecken”
Um überhaupt erstmal in Datenbeständen auf Gold zu stoßen, ist einiges an Vorarbeit bzw. Datenanalyse- und Datenbank-Know-how zu leisten bzw. aufzubauen. Erst dann lassen sich sinnvolle Vorhersagen wie beim Predictive Policing treffen.
Predictive Policing: Wenn “Minority Report” Wirklichkeit wird
Eine Straftat vorhersehen noch bevor der Täter überhaupt einen Gedanken dazu entwickelt hat: Das ist für Kriminalexperten ungefähr so, als ob sie die Lottozahlen schon vor der Ziehung kennen. Ein bisschen erinnert das an den Hollywood-Streifen Minority Report mit Tom Cruise. In diesem Science Fiction Film, der in den USA im Jahr 2054, spielt, werden im Projekt “Precrime” Morde mithilfe von Technologien vorhergesehen und verhindert.
Ganz so einfach klappt die kriminalistische Hellseherei dann doch nicht. In Deutschland legen einige Gesetze dem Abgleich unterschiedlicher Datenbanken aktuell noch Steine in den Weg. In den USA, wo predictive policing bereits in der Praxis im Einsatz ist, zeigen sich Schwächen der Datenanalyse: Der Economist schreibt:
Misuse and overuse of data can amplify biases. It matters, for example, whether software crunches reports of crimes or arrests; if the latter, police activity risks creating a vicious circle. And report-based systems may favour rich neighbourhoods which turn to the police more readily rather than poor ones where crime is rife.
Die datengestützten Prognosen führen also dazu, dass Probleme, aber nicht deren Wurzeln bekämpft werden. Potenzielle Straftäter wissen, in welchen “Hot Spots” ein erhöhtes Polizeiaufgebot herrscht und konzentrieren sich auf weniger frequentierte Orte. Das Katz- und Maus-Spiel (in einigen Fällen auch Hase-Igel Spiel) zwischen Justiz und Straftätern geht also weiter.