Das Projekt „govWILD“ will Verbindungen von Politikern und Unternehmen anhand von offenen Daten im Internet aufzeigen. In Deutschland stößt das Projekt jedoch angesichts der ungeordneten, unvollständigen und schwer auszulesenden Datenquellen aus Regierung, Ministerien und Verwaltung an seine Grenzen. politik-digital.de sprach mit Professor Felix Naumann, der das Abschlussprojekt von Studenten des Hasso-Plattner-Instituts (HPI) betreute.

Bislang ist „govWILD“ jedoch noch „under construction“. „Navigierend Verbindungen zwischen Politikern und Unternehmen aufdecken“ ist nur eingeschränkt möglich. Manche Politiker wie Helmut Kohl treten bei „govWILD“ doppelt auf, andere wie Rainer Brüderle findet das Projekt überhaupt nicht. Dabei sei das keineswegs die Schuld der Studenten. Im Gegenteil: Durch ihre gute Arbeit könne man laut Felix Naumann, Leiter des Fachgebiets Informationssysteme am HPI, „auf viele verschiedene Datenbestände zurückgreifen.“ Wie geht das zusammen?

USA und Großbritannien als Vorreiter

Das Projekt „govWILD“ versucht, öffentliche Daten aus verschiedenen Datenbanken zusammenzuführen und zu analysieren. Es nutzt dazu US-amerikanische, europäische und deutsche Datenbanken. Doch gerade in Deutschland ist das ein sehr aufwendiges Unterfangen. Bei der Veröffentlichung von analysierbaren Daten „sind die USA und Großbritannien Vorreiter“ – erklärt Felix Naumann. Deutschland hingegen nicht. Deshalb müssen sich die „govWILD“-User derzeit noch mit überwiegend amerikanischen Daten zufrieden geben. Und davon gibt es jede Menge. Die Datenbank US-Spendings umfasst zum Beispiel 10 Gigabyte. Zum Vergleich: Die größte Datenmenge aus Deutschland bilden die Agrarzahlungen – mit 21 Megabyte.

 



Klicken Sie auf die Grafik, um eine größere Ansicht zu öffnen.

 

Sowohl in den Vereinigten Staaten als auch in Großbritannien werden mehr Daten in einem Format veröffentlicht, das eine spätere computergestützte Analyse möglich macht. „Linked Data“ nennt Naumann das Datenformat, das in den USA und England auf große Zustimmung trifft. Die britische Regierung beauftragte beispielsweise Tim Berners Lee, eine „Linked-Data-Community anzuleiten“. Berners Lee ist  Erfinder des HTML-Codes und gilt als Begründer des World Wide Web.

Studenten beheben die Versäumnisse der Politik

Naumann räumt ein, es seien „sehr viele Daten“ öffentlich zugänglich, aber leider oft schlecht zu verwerten. Dabei ließe sich mit öffentlich zugänglichen Daten im richtigen Format ziemlich viel machen. Ein Beispiel dafür hat Stephan Wehrmeyer entwickelt, ebenfalls Student am HPI. In einem privaten Projekt Bundestagger veröffentlichte er Protokolle der Debatten im Bundestagsplenum im „Linked-Data“-Format. Der Bundestag bietet aber viele der Dateien nur als PDF-Dokument an – ein Format, das zwar laut Naumann „schön anzuschauen“ sei – Daten könne man aber nur sehr schlecht herausfiltern. Was nach der Umformatierung durch Wehrmeyer alles möglich ist, kann man auf bundestagger.de herausfinden. Unter anderem findet man dort nun Statistiken, wer in Bundestagsdebatten „die meisten Lacher erntet“.

Das Team von „govWILD“ will unterdessen ebenfalls mehr Datenbanken für die Analyse erschließen – was nicht immer einfach ist. Ein Problempunkt sei es laut Naumann, „Dubletten zu bereinigen“. So ist zum Beispiel die Partei „Die Grünen“ im System mehrmals aufgelistet, einmal unter dem Namen „Die Grünen“, ein anderes Mal unter „Bündnis 90/Die Grünen“.

Laut dem HPI-Professor ist eine solche Bereinigung jedoch „kein leichtes Unterfangen“, besonders bei Personen: Denn in manchen Datensätzen gebe es so wenig Informationen über die Person, dass sich nicht feststellen lässt, wer genau damit gemeint ist: „Nur weil jemand Helmut Kohl heißt, muss es ja nicht der Ex-Kanzler sein.“