Modewort „Datenjournalismus“ und investigatives Recherchieren – Ergänzung zum Kapitel 4.3

Daten und Journalismus

„Daten“ sind Informationen. Und die können sich in sehr unterschiedlicher Form darstellen. Beispielsweise in Form von Akten, Briefen, E-Mails und sonstigen Korrespondenzen. Oder ganz anderen Dokumenten, Urkunden etwa. Sogar in Strafzetteln („Knöllchen“). Oder in Gestalt von Aussagen Dritter, etwa Interviews, z.B. Zeitzeugen-Interviews. Usw. Wohl keiner käme auf die Idee, von Akten- oder Briefjournalismus, Dokumentenjournalismus oder Interviewjournalismus zu sprechen. Oder gar Strafzetteljournalismus. Der Begriff „Datenjournalismus“ bezeichnet daher kein Genre wie Sport- oder Kulturjournalismus, sondern stellt auf eine journalistische Methode ab: mit Daten zu arbeiten, also Daten zu recherchieren und selbige beim Veröffentlichen auch irgendwie zu nutzen. Das „irgendwie“ kann in unterschiedlicher Form geschehen: Durch Präsentation der Daten, etwa in Gestalt einer (interaktiven) Tabelle oder Grafik. Oder einer Online-Datenbank zum Stöbern, Beispiel Offshore-Leaks.

Oder einfach nur als komprimierte inhaltliche Erkenntnisse, die sich aus den „Daten“, gleich welcher Art, hatten ziehen lassen. Und was sonst nicht möglich gewesen wäre. (Fiktives) Beispiel: Die Auswertung aller Strafzettel für Falschparken (sofern man an die herankäme) würde ergeben, dass es v.a. BMW-Fahrer sind, die für diese Ordnungswidrigkeit büßen müssen. Die Auswertung einer weiteren Statistik „Welche Berufe fahren welche Automarke“ könnte zeigen, dass Strafzettelausteilende Verkehrspolizisten und Politessen ursprünglich Autos bayerischer Produktion gefahren, dann aber auf VW umgestiegen sind. Hypothetische Schlussfolgerung, die sich durch weitere Datensätze aus BWM-Werkstätten erhärten ließe (sofern man sie bekäme): Das konzentrierte Abmahnen von falschparkenden BMW-Fahrern lässt sich als kleiner Racheakt für die als zu teuer empfundenen Werkstattreparaturen interpretieren. Dieses sicher nicht überzeugende, aber auch nicht von vorneherein als völlig wirklichkeitsfremd zu bezeichnende Beispiel zeigt zweierlei:

  • Zum Einen benötigt man entsprechende bzw. passenden Datensätze.
  • Zum Anderen: Ein statistischer Zusammenhang ist nicht von vorneherein auch ein kausaler Zusammenhang. Allerdings: Ein kausaler Zusammenhang spiegelt sich auch in einer Statistik nieder. Zu letzterem gibt das Buch auf S. 43f Hinweise.

„Datenjournalismus“ heißt (deshalb) in den USA, wo diese Methode sozusagen ihren Anfang nahm, immer noch „Computer Assisted Reporting“, abgekürzt CAR. Und im Angelsächsischen spricht man von „data driven journalism“, also dateninittierter oder datenbasierter Journalismus. Besser würde man ersteinmal von „data driven reporting“ oder auch „… investigating“ sprechen. Denn nicht immer sind die Daten, die man benötigt, einfach zu erhalten, sondern manchmal muss man sie suchen, finden und dann auch bekommen. Dazu gibt es im Buch die Kapitel 3 und 4.

Ein anderer Fall liegt so, dass man über Datensätze verfügt und nun schaut, was sich daraus machen lässt.

 

Einige Beispiele

sollen zeigen, was sich alles mit vielen (unterschiedlichen) Daten bzw. großen Datenmengen machen lässt. Als Anregung für eigene Ideen und Experimente.

(Historisches) Beispiel 1: Zigarettenproduktion in Berlin. Eine Rekonstruktion ohne digitale Informationen

Bis zum Mauerfall gab es das sog. Berlinförderungsgesetz, das wirtschaftliche Aktivitäten im damaligen Westteil der Stadt subventionierte – Berlin/West galt als Aushängeschild des Freien Westens für den Ostblock. Öffentliche Gelder gab es für Investitionen und für alle Umsätze, die westdeutsche Unternehmer in (West)Berlin tätigten. Etwa für geschlachtete Schweine, wenn diese erst nach Berlin gekarrt, dort halbiert und anschließend wieder zurück nach „Westdeutschland“ verfrachtet wurden. Diese „Umsatzsteuerpräferenz“ wurde als fester Prozentsatz auf den erzielten Umsatz spendiert, egal wie dieser Umsatz zustande kam.

Das nahmen auch sämtliche in Deutschland vertretene und produzierende Zigarettenkonzerne zur Kenntnis – hocherfreut darüber, dass die Umsätze – der hohen Tabaksteuer wegen – zu über 90% aus eben dieser Tabaksteuer bestanden: Umsätze ohne eigene Leistung. Was Wunder, dass weit über 40%, also fast die Hälfte aller Zigaretten in Berlin gedreht wurden: hochsubventiert. Da dies in automatisierten Hochleistungsmaschinen geschah (Produktion von damals  rd. 6.000 Zigaretten in 1 einzigen Minute) und diese Apparate teuer in der Anschaffung waren, aber ebenso mit satten Investitionszulagen bedacht wurden, kam es schließlich so, dass allein die Umsatzsteuerpräferenzen das Dreifache dessen betrugen, was die Unternehmen an Löhnen und Gehältern zu zahlen hatten. Mit den Investitionszulagen erhöhte sich dieser Faktor nochmals. Eine absolut absurde Situation.

Der Workflow dieser Zahlen „Tabakindustrie in Berlin_BerlinFG“ bzw. der sich daraus ergebenden Geschichte (übersubventionierte Branche, Riesengewinne auf Kosten der Steuerzahler, wenig Beschäftigungseffekte, Pervertierung des Fördergedankens) lief folgendermaßen:

  1. Suchen nach geeigneten Daten in unterschiedlichen Quellen (Stat. Bundesamt, Stat. Landesämter in Berlin, Hamburg, Bremen, Bayern jeweils am deutschen Sitz der Konzerne): Produktionszahlen, Lohnsummen, Beschäftigtenzahlen, Umsatzwerte
  2. Prüfen der Brauchbarkeit. Ggf. umrechnen und/oder nachrechnen nach ausführlichen Gesprächen mit den amtlichen Statistikern in den Ämtern
  3. Vergleichbarmachen aller Daten
  4. Informationen aus anderen Quellen (Zeitungsberichte über Fabrikeröffnungen, Investitionen, IHK-Mitteilungen u.a.m)
  5. Einarbeiten in die steuerlichen Subventionstechniken (Bemessungsgrundlagen, Berechnungsmethoden
  6. Gegenscheck mit Fachleuten

Ledtztlich stammten alle notwendigen Zahlen und Informationen aus rd. 10 unterschiedlichen Quellen. Und dies zu einer Zeit (1978), als von Computern für Studenten oder Universitätsangehörigen noch keine Rede war. Ähnliches galt übrigens für Röstkaffe – wegen der mitsubventionierten Kaffeesteuer. Und für die Süßwarenproduktion. Und anderes mehr. Mehr in dem Buch „Wirtschaftspolitik in Berlin. Vom Notopfer zur Milliardensubvention“. Hg. von der Arbeitsgruppe Berlinförderung, Frankfurt: Campus Verlag 1979.

 

Beispiel 2: Ein Klassiker aus den USA anno 1991

Die Redaktion der Washington Post hatte gerüchteweise erfahren, dass der Stabschef des Weißen Hauses, John SUNUNU, also einer der wichtigsten Männer von George BUSH, des Öfteren Flugzeuge des Pentagon für private Reisen nutzen würde. Ein Gerücht, wie gesagt. Die Zeitung besorgte sich daraufhin unter Berufung auf den Freedom of Information Act (FOIA) die Fluglisten des Pentagon, aus denen alle relevanten Informationen hervorgingen: Orte, Daten, Kosten.

Da die Reporter davon ausgingen, dass die Lokalzeitungen berichten würden, wenn sich ein solch ‚Hohes Tier‘ aufs Land begibt oder irgendwo in einer anderen Stadt private Besuche abstattet, wurden die Flugdaten mit den Berichten der Lokalpresse miteinander verglichen. Und siehe da: Die Reporter wurden fündig. Und berichteten (genüsslich). Folge 1: Der Stabsschef sah sich genötigt, für viele Flüge (z.B. zum Zahnarzt nach Boston, 2 Skiausflüge nach Colorado) nachzuzahlen (zusammenfassend noch heute nachzulesen im Magazin Newsweek). Folge 2: Die Richtlinien für Privatflüge wurden verschärft.

(Aktuelles) Beispiel 3: Das Offshore-Leaks-Projekt von 2013

Es ist ausführlich beschrieben, wohl von einigen Teilnehmern dieses weltumspannenden Projekts selbst, in Wikipedia: Offshore-Leaks. Kurz zusammengefasst: Ein ehemaliger Journalist in Australien, der heute das International Consortium of Investigative Journalists mit Sitz in Washington leitet, Gerard RYLE, bekam nach einer Serie über „OK“ mehrere Festplatten übergeben (260 GB bzw. 2,5 Millionen Dateien) – er solle daraus etwas machen. Weil sich für ihn darauf nur kryptische Informationen befanden, suchte er einen gewieften IT-Spezialisten und Datenforensiker und fand den in Gestalt von Sebastion MONDIAL aus Deutschland, der weltweit Vorträge über derlei Themen hielt. Man tat sich zusammen, sah schnell, welchen Umfang die Recherchen annehmen und die daraus – möglicherweise – erzielbaren Erkenntnisse sein würden und hiefte das Vorhaben von vorneherein auf eine internationale Ebene. Auf der beteiligten sich letztlich 86 Journalisten aus 46 Ländern. Nachdem innerhalb von 1 1/2 Jahren (fast) alles mehr oder weniger ausrecherchiert war, wurde alles an ein- und demselben Tag weltweit veröffentlicht:am 4. April 2013. Das schlug ein wie eine größere Bombe.

Heute lassen sich die ganzen Informationen (Namen und Infos über 122.000 sogenannter Offshore-Unternehmen) unter www.icij.org/offshore in einer sauber aufbreiteten Datenbank erschließen. Die Projektteilnehmer haben daraus schon viele Geschichten gestrickt. Jetzt stehen diese Daten allen anderen offen. Und so sah der Workflow aus (komprimiert; t.w. detaillierter beschrieben in der Zeitschrift message, Heft 3/2013, leider nicht online verfügbar):

  1. Lesbar und nachvollziehbar machen von rd. 2,5 Mio Dateien, die t.w. verschlüsselt bzw. in sepzifischen Fachcodes verfasst waren
  2. Vergleichbar machen aller Daten
  3. Zusammenführen der jeweils zusammengehörenden Daten(sätze) bzw. Dateiinhalte
  4. Aufbereitung aller Daten auf einem eigens dafür eingerichteten und vom Internet völlig abgehängten Offline-PC
  5. Interpretation und Diskussion aller gewonnenen Informationen

Nicht skizziert sind dabei die vielen und t.w. recht komplizierten internen Abstimmungs- und Koordinationsprozesse unter den über 80 auch geografisch verteilten Journalisten. Das Projekt wurde möglich, weil beispielsweise der NDR erhebliche Investitionen in Ressourcen (Recherchen, Manpower) getätigt hatte, ohne sicher sein zu können, ob sich dies je ‚rentieren‘ würde.

Beispiel 4: Das (immer noch schlechte) Trinkwasser an der Ruhr

betrifft eine ausführlich dargestellte Geschichte im DokZentrum ansTageslicht.de: www.ansTageslicht.de/Friedrich. Der bekannte Fluss im Ruhrgebiet ist zweierlei: Abwasserschwemme für die beidseitig beheimateten Industrien und gleichzeitig Trinkwasserquelle für die dort lebenden Menschen. Beides passt nicht wirklich gut zusammen. Erst recht nicht, wenn die Klärwasser – und Trinkwassertechnik nicht auf dem (aller)neuesten Stand der Technik ist. Verhindert wird das durch die jahrzehntealten und im SPD-Land tief verwurzelten Monopolstrukturen – ein Unikum in ganz Deutschland, wo sonst jeder Bürgermeister und seine Verwaltung persönlich für die Trinkwasserqualität gerade stehen muss.

Wie die Situation konkret aussieht, ist unter ansTageslicht.de in einer mehrteiligen Karte festgehalten – Ergebnis vieler einzeln zusammengetragener Informationen. Auf anderen Karten im Kapitel „Der erste Konflikt“ finden sich weitere Angaben über die Verunreinigungen und deren Grade – nach einzelnen Kläranlagen aufgelistet. Wenn man wollte, könnte man jetzt für jede einzelne Stadt links und rechts der Ruhr eine eigene Aufstellung mit allen gesundheitsschädlichen Werten machen – im Vergleich zu besser gestellten Nachbargemeinden oder zu anderen Kommunen, in denen die Trinkwasserversorgungs- und Abwasseraufbereitungstechnik auf einem höheren Stand der Technik ist.

Die Geschichte handelt aber auch von einem Whistleblower, Dr. Harald Friedrich, seinerzeit Abteilungsleiter im Umweltministerium von NRW und zuständig fürs Trinkwasser. Als zwischenzeitlich CDU und FDP die Macht ergriffen hatten, war dies der geeignete Zeitpunkt für die Wasserindustrien auf dessen Ablösung zu bestehen. Dies geschah auch – auf höchst unübliche Weise: Man hatte dem unerwünschten Abteilungsleiter Korruptionsvorwürfe und anderes angedichtet, die dazu führten, dass er vorübergehend nicht nur in U-Haft gesteckt, sondern auch abgehört wurde. Unter ansTageslicht.de sind die Abhörprotokolle, über 30 an der Zahl,  chronologisch aufgeführt, um zu zeigen, wie so etwas funktioniert und wie so etwas aussieht. Und was sich dann die staatlichen Lauscher so alles notieren: im Kapitel „Lauschangriff und TKÜ„.

Insgesamt hatten 14 Studenten in einem Semester rund 20.000 Dokumente ausgewertet. Knapp 500 sind davon in mehreren Chronologien einzelner Vorgänge dokumentiert – auch eine Art von Datenjournalismus.

 

Potenzielle Themen(felder)

Die Möglichkeiten sind unendlich. Es ist immer eine Frage der a) Daten und b) des Aufwands: sie zu bekommen oder erst recherchieren zu müssen und sie dann – verständlich für alle anderen – zu kommunizieren. Hier seien nur einige Themen angedeutet:

  • Hätten Wirtschaftsjournalisten öfters mal Blicke in diverse Zahlungsbilanzen, in die Bilanzen der BIZ (Bank für internationalen Zahlungsausgleich) und andere OECD-Statistiken geworfen und hätten sie diese Daten miteinander verglichen, so hätte sie die Finanzkrise des Jahres 2007 vermutich nicht ganz so überrascht. Davon abgesehen, dass es vorher auch einige Kassandrarufe gegeben hatte. Aber eben öfters von Experten, die nicht so bekannt oder mainstream-mäßig gewesen sind wie jene, von denen man ständig liest, sieht und hört (siehe dazu das Kapitel 4.5: Gutachter und Experten: anerkannte, selbsternannte und verkannte).
  • 2013 hatte die Bundesregierung auf eine parlamentarische Anfrage der Fraktion DIE LINKE Angaben zu medizinischen Gutachten in Gerichtsverfahren gemacht (Drucksache 17/12947). Dies ist und war schon immer ein heikles Thema: Wie unabhängig solche Expertisen ausfallen; welche Bedeutung sie bei der Urteilsfindung haben; wie oft bestimmte Gutachter von bestimmten Richtern beauftragt werden; wie oft sich derlei „Auslassungen“, die ja „Gutachten“ und nicht „Schlechtachten“ heißen, als oberflächlich, falsch oder sog. Auftragsgutachten herausstellen; wann und wie oft und vor allem warum bestimmte Gutachter seitens der Richter abgelehnt werden; welche medizinischen Gutachter etwa auf der Pay-roll bestimmter Pharmakonzerne stehen usw.
    Die Bundesregierung konnte (wollte) nicht dezidiert dazu beitragen – sie „besitze hierüber keine eigenen Kenntnisse“. Selbiges würde man auch auf Landesebene, etwa bei den Ärztekammern zur Antwort bekommen. Alles unbefriedigend. Wer mehr wissen möchte, müsste schauen, ob es an irgendeiner Hochschule ein dazu passendes Forschungsprojekt gibt. Oder sich mit Gleichgesinnten zusammentun und entsprechende Daten und Informationen nach und nach zusammentragen.
    Egal, wie lange das dauern würde und wie aufwändig es wäre: Sicher ist, dass es nur aufschlussreich und ergiebig sein kann. Denn in diesem Bereich liegt so einiges im Argen. Allein im DokZentrum ansTageslicht.de drehen sich mehrere Geschichten auch um Gutachen und deren Gutachter: www.ansTageslicht.de/Schoendorf: Dort geht es um von der Pharmaindustrie gekaufte Gutachter; www.ansTageslicht.de/Mollath: psychiatrische Gutachten, ohne dass sich einer der Gutachter je mit Gustl MOLLATH unterhalten hätte; www.ansTageslicht.de/Steuerfahnder: Ein bekannter Mediziner erstellt für die Hessische Landesregierung regelrecht getürkte Gutachten, mit Hilfe derer missliebige Beamte aus dem Dienst entfernt werden (können); www.ansTageslicht.de/AlteDame: Hier will eine kleine Gemeinde das große Grundstück einer Rentnerin kaufen, was sie selbst nicht will – sie wird mithilfe eines wiederum passenden Gutachtens unter Vormundschaft gestellt – erste Tat des neuen „Betreuers“: Verkauf des Grundstücks an die Gemeinde.
  • Das gesamte Themenspektrum Lobbyismus und Einflussnahme lässt sich mit Sammeln von Informationen gut erschließen. Aber es ist ein Themenbereich jener Art, der aufgrund des Umfangs an unerschlossenen Informationen, die ja auch nicht gerade einfach zu haben sind, nach Kooperationen mit Gleichgesinnten ‚geradezu schreit‘.
    Allein bei der Bahn AG zu untersuchen, wie die Einflussnahme mit ehemaligen und inzwischen eingekauften (Ex)Politikern auf den politischen Entscheidungsprozess läuft, welche Entscheidungen da wie und wann  und wo getroffen werden, im Zweifel zugunsten des Mobilitätskonzerns, wäre sicher hoch interessant. Und die Bahn hat schon seit langem immer ehemalige Politiker eingestellt, vorzugsweise ehemalige Verkehrsminister und Staatssekretäre – mit ihren vielen Verbindungen, die sie zu Amtszeiten aufgebaut haben.
  • Gleiches ließe sich über Deutschlands Aufsichtsräte recherchieren: Wer hat wo welchen Job? Wer geht wo wie oft bzw. regelmäßig und wie lange zu den Sitzungen? Wie hoch ist das Entgelt dafür? Und wie gründlich werden diese Kontrollmandate wahrgenommen?
  • Überhaupt lässt sich das gesamte Themenspektrum Netzwerke der unterschiedlichsten Arten nur durch datengestützten und recherchierenden Journalismus erschließen, wenn man nicht an vorsortierte und passend aufbereitete Datensätze herankommt, was hierzulande flächendeckend der Fall ist.
  • In diesen Bereich fällt auch der sogenannte Drehtüren-Effekt, den man auch als revolving-doors-Effekt bezeichnet. In vielen Branchen ist es üblich, dass staatliche Aufseher über private Unternehem zwischendrin oder auch danach, also etwa nach ihrer offiziellen Pensionierung, ihren Job wechseln: vom Kontrolleur zum (eigentlich) Kontrollierten, und jetzt mit dem Know-how des Kontrolleurs. Beispiele: Finanzbeamte wechseln in die Privatwirtschaft; Banker bewerben sich beim BaFin (Bundesamt für Finanzdienstleistungen), bleiben dort eine Weile und wechseln wieder zurück zu ihrem früheren Arbeitgeber, der daran immer ein großes Interesse hat. Oder ehemalige Aufseher einer Atomaufsichtsbehörde betätigen sich schon während ihres offiziellen Jobs als externe Berater oder auch erst im Ruhestand. So geschehen bei der japanischen Aufsichtsbehörde METI bzw. beim Atomenergieunternehmen TEPCO (wie auf S. 60 im Buch grafisch skizziert), dessen AKW in Fukushima 2011 in die Luft geflogen ist.

Geldtransfers im Fußball (z.B. Ablösesummen); Bewegungsprofile anhand von sog. Vorratsdatenspeicherungs-Informationen, wie sie OpenDataCity mit Daten des GRÜNEN-Politikers Malte SPITZ im Jahr 2009 für die Wochenzeitung DIE ZEIT erstellt hat; Flugroutenradar-Projekt der Berliner Morgenpost, „Gesundheitsatlas Deutschland“ der stern-Redaktion in ihrem Heft 51/2012 bzw.online unter www.stern.de/gesundheitskarte – all diese hier genannten Projekte deuten die vielfältigen Möglichkeiten an, die in der journalistischen Auswertung größerer Datenmengen liegen.

Die dazu passende Aufbereitung, etwa in Form eine spannenden Geschichte oder ansprechenden Visualisierungen usw. wäre dann der nächste Schritt. Weil dies eine Site ist, die sich ums „investigative“ kümmert, bleiben diese Überlegungen (jedenfalls zur Zeit) hier ausgeklammert. Dennoch der Hinweis, dass dies ein vergleichsweise neues Kommunikationsfeld ist, auf dem viele experimentieren – so bei der ZEIT, beim SPIEGEL oder auch beim stern. Und auch bei jenen, die sich diesem Genre ‚verschrieben‘ haben: Hilfreich kann immer auch sein, bei solchen Projekten, die ja immer ein wenig auf Zeit angelegt sind, beispielsweise auch mit Studenten zusammen arbeiten. Es gibt eine Reihe von Hochschulen, in denen Studierende von Studiengängen wie beispielsweise  „Illustration“, „Infografik“. „Kommunikationsdesign“ oder „Visualisierung“ / „Visuelle Publizistik“ u.a.m. immer auch nach geeigneten Anwendungsprojekten suchen. Eine kleine Übersicht potenziell in Frage kommender Studiengänge und Institutionen gibt es auf der Homepage der Illustratoren Organisation e.V. .

 

Relevante Institutionen und Namen, die man kennen sollte

OpenDataCity versteht sich als „Agentur für Datenjournalismus und Datenvisualisierungen“ und hat schon sehr viele Projekte für und mit großen Medienmarken, aber auch mit NGO’s gemacht.

Der Gründer von OpenDataCity, Lorenz MATZAT, ist dort inzwischen ausgestiegen und konzentriert sich seither v.a. auf kartenbasierte Daten- und Informationssystem: www.lokaler.de sowie http://datenjournalist.de . Nach wie vor arbeitet er mit OpenDataCity zusammen.

Ebenso auf geographische Datenvisualisierungen spezialisiert sind Patrick STOTZ und Achim TACK, beides ausgebildete Stadplaner, mit ihrem Blog http://mappable.info. Letzterer betreibt eine eigene Homepage (dort ebenfalls mit einem Blog zu derlei Fragen): www.achim-tack.org.

An der TU Dortmund, einem deutschen Schwerpunkt der journalistischen Ausbildung, baut Prof. Dr. Holger WORMER, der dort den Lehrstuhl Wissenschaftsjournalismus innehat und bekannt ist mit seinem Projekt www.medien-doktor.de, den ersten Datenjournalismus-Studiengang in Deutschland auf: „Wissenschaftsjournalismus/Schwerpunkt Datenjournalismus„.

Jedes Jahr gibt es die Dataharvest+ – Konferenz, veranstaltet von journalismfund.eu, farmsubsidy.org und wobbing.eu, bei der es um investigatives Recherchieren + Datenjournalismus geht.

 

Datenquellen

Schon immer, und erst recht Im digitalen Informationszeitalter, gibt es jede Menge an Daten. Und immer mehr werden solche Daten(mengen) ausschließlich digital gespeichert. Im Prinzip eine Fundgrube für journalistisches Arbeiten. Aber wie auch in der (immer noch bestehenden) analogen Welt: Das (aller)meiste ist nicht zugänglich. Jedenfalls nicht von vorneherein. Und dies aus den bekannten Gründen. Deswegen gelten für die Beschaffung die gleichen Hinweise und Tipps, wie sie im Buch in den Kapiteln 2 bis 5 – und teilweise auch auf dieser Site (z.B. das ergänzende Kap. 4.6) – ausführlich beschrieben sind.

Unabhängig davon gibt es auch offizielle, sprich allgemein zugängliche Quellen:

Das Statistische Bundesamt in Deutschland bietet unter www.destatis.de eine große Bandbreite unterschiedlcher Daten längst auch in digitaler Form an: zu fast allen Lebens- und Arbeitsbereichen.

Gleiches gilt für das Statistische Amt der EU.

Und fast alle internationalen Organisationen (UNO, Unesco, ILO, WHO, OECD) und ebenso NGO’s halten Daten vor: allgemeiner oder auch spezifischer Art. Und ganz allgemein gelten auch hier bzw. ganz oft für deren Beschaffung, insbesondere wenn es um die sensibleren Informationen geht, die üblicherweise nicht von vorneherein zur Verfügung gestellt werden, die HInweise und Tipps, wie sie im Buch im Kapitel 3.5 (S. 88 ff) aufgeführt sind.

Falls derlei Informationen kostenpflichtig sind, kann man versuchen, sie über die Bibliotheken, etwa von Hochschulen zu erhalten; dort sind sie meist gebührenfrei zu nutzen. Dies muss man im Einzelfall klären.

 

Eigene Datenbeschaffung

Oft ist es so, dass die benötigten (Roh)Daten(mengen) nicht in der Form aufbereitet irgendwo auf einer Website liegen oder in einer Datenbank gebunkert sind, wie man sie benötigt. Sondern verteilt auf mehreren Sites und manchmal sogar verschiedener Domains, und dann oft auch noch in unterschiedlichen Dateiformaten (HTML, xls, doc, PDF etc). Hier kommen spezifische Techniken zum Zuge wie beispielsweise

  • Scraping
  • Data Mining

Wie das funktioniert, beschreibt Patrick RÖSING, zuständig bei stern.de für Datenjournalismus und Visualisierung, hier im Kapitel Daten sammeln, zusammenschaufeln und sie nutzbar machen.

 

Weitere (nützliche) Links:

  • Interview der Zeitschrift message mit Christina ELMER, Datenjournalistin in der Wirtschaftsredaktion von SPIEGEL-ONLINE: Datenjournalismus: Die Erzählform der Zukunft? Dort finden sich weitere Links auf z.B. entsprechende Projekte der Süddeutschen Zeitung oder des englischen Guardian