Speicherkapazität und Langzeitarchivierung gelten als eines der ganz wichtigen Merkmale des Mediums Internet: Alte Inhalte können unbegrenzt neben neuen stehen und diese ergänzen. Die Praxis prägen heute Pragmatismus und Paid Content. Und sie birgt einige Fallstricke für Redaktionen und Nutzer, die diesen nicht immer bewusst sind.

Spiegel Online hat im Archiv gekramt und gönnt seinen Usern zum zehnjährigen Bestehen ein Surferlebnis aus der Frühzeit des Web: Surfen wie 1996. Möglicherweise waren der Redaktion Design und Inhalte aus den allerersten Monaten doch etwas zu sparsam, um sie der Öffentlichkeit noch einmal zu präsentieren – oder die allerersten Webseiten sind schlicht nicht mehr vorhanden. Denn trotz theoretisch unbegrenzter Speicherkapazität: Bei vielen Online-Medien verschwinden Artikel auf die eine oder andere Weise.

Die endlichen Archive



Häufig landen sie ganz automatisch hinter dem Internet-Äquivalent einer Zollschranke, im kostenpflichtigen Archiv. Bei Spiegel Online etwa muss man für exklusive Internet-Texte nach drei Monaten, für Texte aus der Print-Ausgabe schon nach einem Monat löhnen. Die Süddeutsche Zeitung hält Zeitungstexte sogar nur sieben Tage auf der Website kostenlos bereit – dann verkauft sie der Verlag über sein Tochterunternehmen DIZ. Extra für die Online-Ausgabe erstellte Texte sind im Gegensatz zu Spiegel Online gratis.

Aber auch sie bleiben nicht ewig verfügbar, sondern – wie bei manch’ anderer Website – nur zurück bis zum letzten Relaunch. Aus dem alten Angebot sind laut Online-Chef Helmut Martin-Jung nur einige zeitlose Dossiers, etwa zu Wissenschaftsthemen, übernommen worden: “Wir sind ja kein Archivierungsunternehmen. Das hätte uns technisch ausgebremst, wenn wir die alten Artikel alle weiter vorhalten würden.” Das gleiche Bild bei stern.de: Artikel ab dem Relaunch im Dezember 2003 lassen sich über die Suchfunktion finden. “Darüber hinaus können Stern-Artikel über die G+J-Pressedatenbank kostenpflichtig recherchiert werden”, erklärt Redaktionsleiterin Barbara Hamm.

Das Argument: die Technik. Immerhin seien seit dem Relaunch vor gut zwei Jahren schon wieder rund 25.000 neue Artikel produziert worden, meint Martin-Jung.

Holger Meier, stellvertretender Chef von heute.de, argumentiert ähnlich: “Wir haben sehr viele Videos, die rauben uns die Platte.” Zwar seien beim letzten Relaunch “fast komplett” alle Inhalte gespeichert worden. Aber nur fürs interne Backup – für die Nutzer werden Inhalte nur gut ein Jahr vorgehalten: “Ausnahmen gibt es natürlich, wie zum Beispiel das Video von Saddams Festnahme.”

“Wen interessiert die fünfzigste Entwicklung der Gesundheitsreform?”

Nicht das Web ist endlich, aber offenbar Festplattenspeicher und Serverkapazitäten. Für die User macht das im Ergebnis wenig Unterschied. Nicht schlimm, findet Meier: “Das Tagesgeschäft ist irgendwann durch. Wen interessieren denn später noch drittrangige Themen von 1997?” Das Nutzerverhalten bestätige das, hat man in Mainz wie in München die Erfahrung gemacht. Martin-Jung: “Weder wir, noch irgendjemand sonst haben Lust, Sachen durchzulesen wie die fünfzigste Wendung in der Gesundheitspolitik. Das interessiert höchstens jemanden, der eine Doktorarbeit dazu schreibt.”

Also eventuell geplagte Minderheiten wie Medienwissenschaftler und Studenten, die sich mit dem Verfassen inhaltsanalytischer Diplomarbeiten plagen. Oder sollte es darüber hinaus von Belang sein, wenn sich in einigen Jahren die Frühzeit der Webmedien womöglich kaum noch nachvollziehen lässt, so wie heute einst auf 5 1/2 Zoll-Disketten gespeicherte Daten unlesbar, verloren oder nur mühsam rekonstruierbar sind?

Mut zur Lücke



Holger Meier von heute.de macht sich keine Sorgen über drohende Lücken im kulturellen Gedächtnis der Gesellschaft: “Ich wäre da nicht so kritisch.” Obwohl Printprodukte im Gegensatz zu digitalen Daten auch über Jahrzehnte und Jahrhunderten noch erhalten und lesbar bleiben: “Auch die Zeitungen haben ein lückenhaftes Archiv”, sagt er. Da würden Ausgaben nicht oder nur unvollständig abgeheftet. Und zunehmend würden auch Verlage ihre Archiv elektronisieren. Meier betont die Vorteile des XML-Formats, das es erlaubt, Texte bei einem Relaunch relativ problemlos von einem Design ins andere fließen zu lassen.

Der Webdesigner und Medienwissenschaftler Holger Rada sieht das ganz anders. “Mir macht es große Sorgen, dass Inhalt und Form voneinander getrennt werden. Beides gehört zusammen. Für die Lesbarkeit eines Textes und das Verständnis eines Beitrags sind typographische Gestaltung und Text-Bild-Relationen von großer Bedeutung”, sagt Rada. Er hat bereits 1999 in seiner Dissertation die Frühzeit der Online-Medien von 1994 bis 1999 analysiert. “Als ich aber für mein neues Projekt, eine Geschichte des Web-Designs, recherchiert habe, habe ich die bittere Erfahrung gemacht, dass das Design für die Online-Redaktionen überhaupt keine Rolle spielt.” So habe man sich bei heute.de nur für die ‘Artikel’ interessiert. Rada: “Das Design ist Sache der Webmaster – wenn überhaupt.”

Wayback, Google Cache und die möglichen Folgen

Martin-Jung bereiten solche Archivierungslücken keine Kopfschmerzen: “Es gibt da ja eine Site, die das in verdienstvoller Weise für uns übernimmt.” Gemeint ist das Internet Archive, eine Non-Profit-Organisation, die den Sturz in ein Digital Dark Age durch das Abspeichern ganzer Websites dokumentierten will. Zumindest in dem Rahmen, den ihr Serverpark im alten Fort Presidio an der Golden Gate Bridge erlaubt. Mit der Wayback Machine des Internet Archive lassen sich die gespeicherten Sites durchsuchen. So kann man beispielsweise die Entwicklung der Stern-Website zumindest teilweise nachvollziehen.

Ähnlich funktioniert der Google Cache, in dem die Suchmaschine beim Crawlen einen Schnappschuss zwischenspeichert. Die Cache-Funktion zeigt die Seiten dann zumindest temporär so an, wie Google sie gefunden hat, auch wenn sie inzwischen geändert wurden: praktisch beim Suchen, aber möglicherweise folgenreich für Online-Redaktionen und private Webmaster.

“Das Abspeichern alter Seiten ist meinerseits erwünscht”, sagt stern.de-Leiterin Hamm. Das sehen nicht alle so. Denn Internet Archive und Google legen das Urheberrecht großzügig aus: Sie spiegeln Inhalte fremder Websites ohne Rücksicht auf Copyrights, es sei denn, ein Website-Betreiber legt ausdrücklich Widerspruch ein bzw. blockiert die Speicherung durch einen entsprechenden Eintrag in seiner robots.txt-Datei. So eröffnet sich ein Tummelfeld für Medienrechtler bis hin zu Abmahnexperten. In einer ausführlichen rechtlichen Bewertung folgerte der Jurist Martin Bahr 2002, “dass die Archivierung durch The Wayback Machine gegen geltendes deutsches Urheberrecht” verstoße. Der Google Cache sei hingegen als Proxy-ähnlicher Zwischenspeicher rechtlich gedeckt. Bahr sieht die durch die Wayback Machine “gerade auch in wissenschaftlicher Hinsicht […] ungeahnte Möglichkeiten.” Aber er kennt seine Zunft und gibt zu bedenken: “Etwaige Urheberrechtsverstöße und Urheberrechtsverletzungen könnten auch nach der Löschung der Seite vom Webserver des Betreibers verfolgt werden.”

Versenden ist so eine Sache

“Es versendet sich viel”, meint Helmut Martin-Jung. Die Online-Leser seien nicht so aufmerksam wie bei einer Zeitung. Ruckzuck sind online kleine Tippfehler korrigiert, kann aus Militärquellen ein Armeepressesprecher samt Namen werden, sobald die zweite Agenturmeldung da ist oder aus 17 Toten zwölf Verletzte, drei Todesopfer und ein Selbstmordattentäter, sind doppelte Worte getilgt und fehlende Halbsätze ergänzt.

„Es versendet sich gar nichts”, sagt Holger Meier. Er meint das, was das Internet vom flüchtigen Medium Radio unterscheidet: “Es kommen täglich Mails von Nutzern. Wir überprüfen mögliche Fehler und korrigieren. Dann ist es Wurst, von wann der Text ist.” Auch Barbara Hamm freut sich über Mails aufmerksamer User. Das käme bei stern.de aber nicht sehr häufig vor: “Die meisten Fehler werden von der Redaktion selbst entdeckt.”

Und wenn sie nicht entdeckt werden? In den umfangreichen Archiven der Online-Magazine können sich potenzielle Zeitbomben verbergen: Was im Radio oder Fernsehen an Fehlern durchschlüpfen kann, bleibt im Netz weiter abrufbar.

Unsere Artikel erscheinen auf der Basis der zu diesem Zeitpunkt vorliegenden Informationen”, erläutert Hamm. Beispiel: “Ein Konzern schließt 50 Filialen. Ändert sich der Stand der Dinge – der Konzern schließt nun 100 Filialen – so ist es unsere Aufgabe, die Entwicklung aufzuzeichnen. Somit wird ein neuer Artikel mit aktuellem Datum und dem Stand der Dinge verfasst und veröffentlicht.” Praxis bei stern.de, Alltag auch in vielen anderen Online-Redaktionen: Kleinere Operationen werden am lebenden Objekt durchgeführt, bei größeren wird ein neuer Artikel angelegt.

Aber viele Texte lassen sich im Archiv noch Wochen oder Monate später leicht aufspüren, auch wenn die Redaktion diese längst vergessen hat. Dank Wayback Machine und Google Cache möglicherweise sogar, wenn ein Artikel auf der eigentlichen Website längst nicht mehr online ist.

Ankläger aus dem Cache, Entlastungszeuge überschrieben

Ein Artikel im Online Journalism Review beschreibt die Beispiele aus der US-Praxis: Teilweise werden demnach dort in elektronischen Archiven nachträglich Namen korrigiert und Fakten geändert.

Ein Zwiespalt: Ohne nachträgliches Eingreifen werden Fehler womöglich dauerhaft weiter zur Verfügung gestellt – mit Folgen für die Nutzer, denen nicht auffällt, dass es sich um veraltete Informationen handelt, und möglicherweise mit gravierenden Konsequenzen für die Redaktionen. So kann ein Archiv-Artikel auch noch lange nach der Veröffentlichung juristische Angriffsfläche bieten, obwohl er doch zu diesem Zeitpunkt aufgrund der vorliegenden Informationen nach professionellen journalistischen Kriterien astrein schien (Meier: “Wir arbeiten so sauber, wie eine Nachrichtenredaktionen arbeiten kann.”).

Ein hypothetischer Extremfall: Ein Kläger hat mit einem Ausdruck aus Wayback Machine oder Google Cache ein mächtiges Beweismittel in der Hand. Die Redaktion hatte dagegen die umstrittene Textstelle innerhalb einer Stunde von der zweiten zur dritten Zwischenversion des Artikels entscheidend abgeändert. Leider kann sie dies nicht beweisen, weil auch die verbesserte Version wenig später überschrieben wurde und keine der beiden älteren wenigstens noch in elektronischer Version vorliegt.

“Auch wenn wir einen Artikel schon drei oder viermal aktualisiert haben, kann dann am Abend ein guter Korrespondentenbericht alles ersetzen”, sagt Meier. Wenn eine Online-Redaktion in solchen Fällen nicht aufpasst, bleibt zwar der Sachstand erhalten, aber die ursprüngliche Meldung verschwindet.

Inakzeptabel für Nutzer?

Oder doch lieber nachträglich alle Fakten anpassen? Eine Sisyphos-Arbeit, die eigentlich niemand leisten kann. Und dann ließe sich wieder nachträglich nicht mehr die Berichterstattung nachvollziehen. Ein Dilemma – aber auch ein relevantes?

Die befragten Redaktionen sehen in der Praxis kein großes Problem. Natürlich, juristisch angefochtene Inhalte würden sofort aus dem Angebot entfernt, bestätigen sie. Beispiele aus der eigenen Berichterstattung kann oder will aber niemand nennen. Und auch Gefahren durch das Langzeitgedächtnis etwa der Wayback Machine fürchten sie momentan nicht.

Im WWW-Wirrwarr, wo Altes neben Neuem stehen kann, würden sich die Nutzer in den im Vergleich zur Gesamtheit des Netzes strukturierten Angeboten von Online-Medien gut zurechtfinden, meint man bei heute.de, stern.de und sueddeutsche.de. Zumal sich im eigenen Angebot direkte Links von aktuellen Meldungen auf ältere Artikel nur fänden, wenn diese noch relevant und nicht überholt seien.

Hamm, Meier und Jung-Martin sind sich einig: Dank Datumsstempeln in den Meldungen könnten Nutzer diese problemlos einordnen. Auch wenn das häufig jemandem, der durch interne oder externe Suchmaschinen auf einen Archiv-Artikel aufmerksam wird, wohl nicht so klar erscheinen wird. Kaum ein User kann auf Anhieb erkennen, ob ein Datumstempel nicht nur angibt, wann das letzte Mal ein Tippfehler in einer viel älteren Meldung korrigiert wurde. Medienwissenchaftler Rada kritisiert bei Online-Medien insgesamt einen sorglosen Umgang mit Texten und deren Urhebern: “Aus Nutzerperspektive ist das nicht zu akzeptieren.”