Es lebe die Statistik – oder: Wie wertet man 2,6 Terabyte panamaische Daten aus?

Aleksandra Sowa11.04.2016Außenpolitik, Gesellschaft & Kultur

2,6 Terabyte Informationen sickerten aus der Mossack-Fonseca-Zentrale in Panama an die Presse durch. Mehr, als je von Edward Snowden oder Wikileaks veröffentlicht wurde. Bei den schier unbegrenzten Rechenkapazitäten stellt die Auswertung einer solchen Menge brisanter Daten dennoch eine Herausforderung dar. Nicht nur für die Technik. Gefordert wird eine andere Ressource: der (deduktive) Mensch.

_„Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.“ (Stanislaw Jerzy Lec)_

Wie wertet man 11,5 Millionen verschiedene Dateien mit (vermutlich) brisanten Inhalten aus? Und zwar so, dass dabei etwas Konkretes herauskommt? Genau diese Frage müssen sich die mehr als 100 Nachrichtenagenturen und 400 Journalisten gestellt haben, als sie im vergangenen Jahr plötzlich vor einem beinahe undurchdringlichen Berg an Unterlagen standen, die heute als „Panama Papers“ bekannt sind. Darunter: 4,8 Millionen E-Mails, drei Millionen Datenbankeinträge, zwei Millionen PDFs, eine Million Bilder und 320.000 Textdokumente, fand Wired heraus.

Zugegeben, die Lage war schwer, aber nicht unüberwindbar.
In Fällen, wie diesen, wo es um mehrere Terabyte an Informationen geht, sind zwei Herausforderungen zu bewältigen. Erstens: die Technik. Es geht darum, Dateien verschiedener Formate nach bestimmten Inhalten durchsuchen zu können, sie also zu filtern. Eine Aufgabe, vor der nicht selten Unternehmen im Falle interner Ermittlungen stehen. Oder das Kartellamt nach einer erfolgreichen Durchsuchung und Beschlagnahmung relevanter Akten: Papier und digital, PDF, PowerPoint, JPEG, Text und TIFF, querbeet, E-Mails, Logdateien, Docs, Scans – und oben drauf die haptische Mappe aus dem Stahlschrank. Das Datenmaterial aus dem Panama-Fundus musste (formattechnisch) vereinheitlich, indexiert und sortiert werden, bevor – jetzt nur binnen weniger Minuten – eine Suche nach bestimmten Inhalten (beispielsweise den Namen von Politikern) durchgeführt werden konnte. Bei dieser mühsamen Aufgabe sollte die Süddeutsche Zeitung und das International Consortium of Investigative Journalists (ICIJ), so berichtet Wired, von einer externen Firma Unterstützung bekommen haben.

Zweitens: die Prüfhypothese. Denn bei Auswertungen von Datenmaterial solcher Brisanz wie die Panama Papers gelten die Erkenntnisse des Big-Data-Zeitalters, dass nämlich die neue Qualität durch mehr Quantität erreicht wird, nicht. Bei Massendatenauswertungen im Sinne des Big Data Mining erfolgt die Datenverarbeitung auch ganz ohne Theoriebildung. Datenströme werden auf Korrelationen ausgewertet, ohne darauf zu achten, dass ein ursächlicher Zusammenhang besteht, sobald zwei Tatsachen zueinander in Beziehung gestellt werden. Roberto Simanowski, Autor von Data Love, spricht im Kontext von Big Data sogar von Theoriemüdigkeit. Datenverarbeitung ohne Theoriebildung entfernt sich damit davon, was (traditionelle) Wissenschaft ausmacht.

Welche Gefahren das birgt, zeigt das Storch-und-Baby-Beispiel. Rudolf Flesch zitiert in Besser schreiben, sprechen, denken einen Statistiker, der entdeckte, dass es eine Korrelation von 0.9 zwischen der Anzahl von Storchennestern und den Geburten in Stockholm während einer bestimmten Anzahl an Jahren gab. Der strengen Wenn-dann-Logik des Big Data Mining folgend müsste daraus zwangsläufig eine Voraussage resultieren, dass Kinder von Störchen gebracht werden. Die Big-Data-Logik ist die Logik eines Dreijährigen. Und Big Data Mining führt nicht unbedingt zu mehr Wissen.

Pfui, die Wissenschaft, sagen trotzdem viele. Internetkonzerne wie Google und Facebook, beispielsweise, die für die Vorteile, die eine resolute und effektive Datenakkumulation und -analyse dem Kunden versprechen, stehen. Doch bei Massendatenauswertungen ist es genau die Wissenschaft, die Analyse, das Aufstellen von Vermutungen, Hypothesen, Annahmen etc. – all das, was ein repräsentatives Ergebnis von einem Haufen nutzloser Zahlen unterscheidet.

Business Analytics, Forensic Analytics, statistisch-mathematische Auswertungsmethoden helfen den Menschen seit eh und je – ob nun den Beamten des Kartellamts, der Polizei, interner Revision, externen Prüfern oder eben investigativen Journalisten –, Herr über die Daten zu werden. Sie helfen aber auch den Wahlforschern, Nichtwähler zu identifizieren, die potenzielle Wähler einer bestimmten Partei werden könnten. Oder Google, zu bestimmen, welche Werbung auf der Seite mit dem Suchergebnis eingeblendet werden soll. Wie zutreffend das Ergebnis solcher Auswertungen ist, hängt im Wesentlichen von … der Theorie ab. Von der Fragestellung, Hypothese, Annahmen, Toleranzwerten, Definition der Suchbegriffe oder Indikatoren etc. ab. Sehr verkürzt gesagt: Man sollte wissen, wonach man sucht und warum, bevor man die Daten durch die Rechner jagt. Das scheinen die Journalisten bei ICIJ verstanden zu haben.

In der Zeit vor Big Data waren sich Wissenschaftler einig darüber, dass es bei wissenschaftlicher Erforschung eines Problems zwei Gruppen gibt: Leute, die Daten sammeln, und solche, die Annahmen erstellen. Und man war sich einig, dass die, die Annahmen erstellen, wichtiger sind. „Vornehmer ausgedrückt“, schrieb Flesch, „bedeutet das, dass die Betonung mehr auf Deduktion als auf Induktion liegt und dass die aristotelische Methode … höher eingeschätzt wird als die von Bacon.“ Ganz gleich ob der berühmte Grippeindex von Google, die Kundenfürsorge oder Panama Papers: Ziel der Datensammlung und -analyse ist immer der Mensch. Und zwar: „die Verbesserung seiner wirtschaftlichen, sozialen, gesundheitlichen Situation“. Das betonen Internetkonzerne und Behörden gleichermaßen.

Im Fall von Panama Papers könnte sich die Öffentlichkeit vielleicht zum ersten Mal überhaupt davon überzeugen, dass dies tatsächlich stimmt. Das hängt im Wesentlichen davon ab, was die Mächtigen dieser Welt mit den Ergebnissen der Auswertungen anstellen werden. Das ist aber eine ganz andere Geschichte.

_Im Text wurden Ausschnitte aus dem Artikel „Big Data Mining, oder: Antwort auf nie gestellte Fragen“, erschienen in: Neue Gesellschaft – Frankfurter Hefte 12/2014, verwendet._

KOMMENTARE

MEIST KOMMENTIERT

Boyan Slat ist die bessere Greta Thunberg

Die Schwedin Greta Thunberg gilt als Klimaikone. Aber bei genauer Betrachtung ist die Klimakaiserin nackt! Der smarte Niederländer Boyan Slat hingegen ist weniger bekannt, aber Greta gegenüber mit seinem Klimapragmatismus weit voraus. Aber wer ist der junge Mann aus Delft? Und viel wichtiger: Waru

Kevin Kühnert wird der (über)nächste SPD-Vorsitzende

Ich wette, Kevin Kühnert wird den (noch nicht gewählten) SPD-Vorsitzenden Norbert Walter-Borjans und seine Partnerin Saskia Esken ablösen. Sie glauben das nicht? Immerhin hatte ich schon öffentlich eine Wette angeboten, dass die beiden bei der Stichwahl zum SPD-Vorsitz als Sieger hervorgehen,

Was bedeutet der Sieg von Walter-Borjans und Esken?

Der frühere nordrhein-westfälische Finanzminister Norbert Walter-Borjans und die Bundestagsabgeordnete Saskia Esken sind von der SPD-Basis zum neuen Duo an der Parteispitze gewählt worden. In der Stichwahl setzten sich die beiden Kandidaten klar mit 53,06 Prozent gegen den Vizekanzler Olaf Scholz

Besserverdienende sind deutlich zufriedener mit ihrem Sexleben als Geringverdiener

Besserverdienende sind deutlich zufriedener mit ihrem Sexleben als Geringverdiener, wie eine aktuelle Studie belegt

Winfried Kretschmann - Wir müssen die Disruption des öffentlichen Raums verhindern

Wie kann es uns gelingen, die fragmentierte Öffentlichkeit wieder zusammen zu führen? Wie können wir Brücken zwischen der ganzen Fülle unterschiedlichster Gruppen bauen? Müssen wir vielleicht den Ort erst schaffen, an dem ein gemeinsamer Diskurs wieder möglich wird?

Rentner zahlen sechsmal so viel Steuern wie Erben

Rentnerinnen und Rentner, die in diesem Jahr in Rente gehen, zahlen bis zu fünfmal mehr Steuern, als Rentnerinnen und Rentner, die 2010 in Rente gegangen sind. Und das bei gleicher Rentenhöhe, die seitdem real an Kaufkraft verloren hat. Dass die Finanzämter selbst bei einer Bruttorente von 1200 E

Mobile Sliding Menu