Es lebe die Statistik – oder: Wie wertet man 2,6 Terabyte panamaische Daten aus?

Aleksandra Sowa11.04.2016Außenpolitik, Gesellschaft & Kultur

2,6 Terabyte Informationen sickerten aus der Mossack-Fonseca-Zentrale in Panama an die Presse durch. Mehr, als je von Edward Snowden oder Wikileaks veröffentlicht wurde. Bei den schier unbegrenzten Rechenkapazitäten stellt die Auswertung einer solchen Menge brisanter Daten dennoch eine Herausforderung dar. Nicht nur für die Technik. Gefordert wird eine andere Ressource: der (deduktive) Mensch.

_„Unter allen menschlichen Entdeckungen sollte die Entdeckung der Fehler die wichtigste sein.“ (Stanislaw Jerzy Lec)_

Wie wertet man 11,5 Millionen verschiedene Dateien mit (vermutlich) brisanten Inhalten aus? Und zwar so, dass dabei etwas Konkretes herauskommt? Genau diese Frage müssen sich die mehr als 100 Nachrichtenagenturen und 400 Journalisten gestellt haben, als sie im vergangenen Jahr plötzlich vor einem beinahe undurchdringlichen Berg an Unterlagen standen, die heute als „Panama Papers“ bekannt sind. Darunter: 4,8 Millionen E-Mails, drei Millionen Datenbankeinträge, zwei Millionen PDFs, eine Million Bilder und 320.000 Textdokumente, fand Wired heraus.

Zugegeben, die Lage war schwer, aber nicht unüberwindbar.
In Fällen, wie diesen, wo es um mehrere Terabyte an Informationen geht, sind zwei Herausforderungen zu bewältigen. Erstens: die Technik. Es geht darum, Dateien verschiedener Formate nach bestimmten Inhalten durchsuchen zu können, sie also zu filtern. Eine Aufgabe, vor der nicht selten Unternehmen im Falle interner Ermittlungen stehen. Oder das Kartellamt nach einer erfolgreichen Durchsuchung und Beschlagnahmung relevanter Akten: Papier und digital, PDF, PowerPoint, JPEG, Text und TIFF, querbeet, E-Mails, Logdateien, Docs, Scans – und oben drauf die haptische Mappe aus dem Stahlschrank. Das Datenmaterial aus dem Panama-Fundus musste (formattechnisch) vereinheitlich, indexiert und sortiert werden, bevor – jetzt nur binnen weniger Minuten – eine Suche nach bestimmten Inhalten (beispielsweise den Namen von Politikern) durchgeführt werden konnte. Bei dieser mühsamen Aufgabe sollte die Süddeutsche Zeitung und das International Consortium of Investigative Journalists (ICIJ), so berichtet Wired, von einer externen Firma Unterstützung bekommen haben.

Zweitens: die Prüfhypothese. Denn bei Auswertungen von Datenmaterial solcher Brisanz wie die Panama Papers gelten die Erkenntnisse des Big-Data-Zeitalters, dass nämlich die neue Qualität durch mehr Quantität erreicht wird, nicht. Bei Massendatenauswertungen im Sinne des Big Data Mining erfolgt die Datenverarbeitung auch ganz ohne Theoriebildung. Datenströme werden auf Korrelationen ausgewertet, ohne darauf zu achten, dass ein ursächlicher Zusammenhang besteht, sobald zwei Tatsachen zueinander in Beziehung gestellt werden. Roberto Simanowski, Autor von Data Love, spricht im Kontext von Big Data sogar von Theoriemüdigkeit. Datenverarbeitung ohne Theoriebildung entfernt sich damit davon, was (traditionelle) Wissenschaft ausmacht.

Welche Gefahren das birgt, zeigt das Storch-und-Baby-Beispiel. Rudolf Flesch zitiert in Besser schreiben, sprechen, denken einen Statistiker, der entdeckte, dass es eine Korrelation von 0.9 zwischen der Anzahl von Storchennestern und den Geburten in Stockholm während einer bestimmten Anzahl an Jahren gab. Der strengen Wenn-dann-Logik des Big Data Mining folgend müsste daraus zwangsläufig eine Voraussage resultieren, dass Kinder von Störchen gebracht werden. Die Big-Data-Logik ist die Logik eines Dreijährigen. Und Big Data Mining führt nicht unbedingt zu mehr Wissen.

Pfui, die Wissenschaft, sagen trotzdem viele. Internetkonzerne wie Google und Facebook, beispielsweise, die für die Vorteile, die eine resolute und effektive Datenakkumulation und -analyse dem Kunden versprechen, stehen. Doch bei Massendatenauswertungen ist es genau die Wissenschaft, die Analyse, das Aufstellen von Vermutungen, Hypothesen, Annahmen etc. – all das, was ein repräsentatives Ergebnis von einem Haufen nutzloser Zahlen unterscheidet.

Business Analytics, Forensic Analytics, statistisch-mathematische Auswertungsmethoden helfen den Menschen seit eh und je – ob nun den Beamten des Kartellamts, der Polizei, interner Revision, externen Prüfern oder eben investigativen Journalisten –, Herr über die Daten zu werden. Sie helfen aber auch den Wahlforschern, Nichtwähler zu identifizieren, die potenzielle Wähler einer bestimmten Partei werden könnten. Oder Google, zu bestimmen, welche Werbung auf der Seite mit dem Suchergebnis eingeblendet werden soll. Wie zutreffend das Ergebnis solcher Auswertungen ist, hängt im Wesentlichen von … der Theorie ab. Von der Fragestellung, Hypothese, Annahmen, Toleranzwerten, Definition der Suchbegriffe oder Indikatoren etc. ab. Sehr verkürzt gesagt: Man sollte wissen, wonach man sucht und warum, bevor man die Daten durch die Rechner jagt. Das scheinen die Journalisten bei ICIJ verstanden zu haben.

In der Zeit vor Big Data waren sich Wissenschaftler einig darüber, dass es bei wissenschaftlicher Erforschung eines Problems zwei Gruppen gibt: Leute, die Daten sammeln, und solche, die Annahmen erstellen. Und man war sich einig, dass die, die Annahmen erstellen, wichtiger sind. „Vornehmer ausgedrückt“, schrieb Flesch, „bedeutet das, dass die Betonung mehr auf Deduktion als auf Induktion liegt und dass die aristotelische Methode … höher eingeschätzt wird als die von Bacon.“ Ganz gleich ob der berühmte Grippeindex von Google, die Kundenfürsorge oder Panama Papers: Ziel der Datensammlung und -analyse ist immer der Mensch. Und zwar: „die Verbesserung seiner wirtschaftlichen, sozialen, gesundheitlichen Situation“. Das betonen Internetkonzerne und Behörden gleichermaßen.

Im Fall von Panama Papers könnte sich die Öffentlichkeit vielleicht zum ersten Mal überhaupt davon überzeugen, dass dies tatsächlich stimmt. Das hängt im Wesentlichen davon ab, was die Mächtigen dieser Welt mit den Ergebnissen der Auswertungen anstellen werden. Das ist aber eine ganz andere Geschichte.

_Im Text wurden Ausschnitte aus dem Artikel „Big Data Mining, oder: Antwort auf nie gestellte Fragen“, erschienen in: Neue Gesellschaft – Frankfurter Hefte 12/2014, verwendet._

KOMMENTARE

MEIST KOMMENTIERT

Wir dürfen uns von der AfD nicht die Demokratie zerstören lassen

Es gibt sie noch, die besonnenen Köpfe in der Politik. Wohltuend unaufgeregt das Interview mit Thüringens früherem Ministerpräsidenten Bernhard Vogel (CDU), Solche besonnenen Stimmen, die die Dinge vom Ende her durchdenken und nicht nur flotte Parolen oder moralische Dauerempörung im Programm h

Deutschland ist über Nacht zu einer offenen Gesinnungsdiktatur geworden

Man wird in der Geschichte wohl kein Beispiel finden, welches veranschaulicht, wie in einer Demokratie von Politik und Medien so offen ein urdemokratischer Prozess dämonisiert und ein gewählter Ministerpräsident einer solchen Hasskampagne von Politikern und Medien ausgesetzt wurde, dass er und se

Mit der verbrecherischen US-Oligarchie gibt es keinen Frieden und keinen „Klimaschutz“

Mit der verbrecherischen US-Oligarchie gibt es keinen Frieden und keinen „Klimaschutz“. Wenn die Grünen wirklich Frieden und Klimaschutz wollen, dann müssen sie der skrupellosen US-Oligarchie, die die halbe Welt terrorisiert, die kalte Schulter zeigen. Europa muss sich aus der Bevormundung der

Der Rundfunkbeitrag ist einfach nicht mehr zeitgemäß

Die konservative Basisbewegung innerhalb der CDU/CSU fordert die Landesregierungen auf, die Stimmung in der Bevölkerung ernst zu nehmen und umgehend Kostenschnitte für die öffentlich-rechtlichen Medienanstalten zu beschließen.

Regierungsbildung in Thüringen: Dies ist ein bitterer Tag für die Demokratie

Dieses Ergebnis ist ein Dammbruch. Die Wahl des Thüringer Ministerpräsidenten hat gezeigt, dass CDU und FDP den Wählerauftrag nicht verstanden haben. Gemeinsam mit Stimmen der AfD haben sie die Wiederwahl Bodo Ramelows verhindert. FDP und CDU werden damit zum Steigbügelhalter der rechtsextremen

Sich mit der AfD wählen zu lassen, ist ein inakzeptabler Dammbruch

Es ist ein inakzeptabler Dammbruch, sich mit dem Stimmen der AfD und Herrn Höckes wählen lassen, so Ministerpräsident Bayerns Markus Söder.

Mobile Sliding Menu