Moderne Suche in alten Zeitungen
„Im Hinblick auf den guten Willen und die Mäßigung der Westmächte ist alle Wahrscheinlichkeit für den Frieden; aber im Hinblick auf die russische Auffassung der orientalischen Frage und die Anforderungen, welche, die Petersburger Politik stellt, ist alle Wahrscheinlichkeit für den Krieg. Durch letzteren würde die Karte Europas gänzlich umgestaltet werden.“ – Diese Einschätzung des französischen Staatsmannes Édouard Drouyn de Lhuys über die Friedenschancen im Krim-Krieg konnten am 14. April 1855 die Leser der in Wien erscheinenden Morgen-Post entnehmen. Dass seine – gerade angesichts der aktuellen politischen Situation interessanten – Worte 160 Jahre später hier wiedergegeben werden können, ist dank einer europaweiten Digitalisierungsoffensive möglich. Im Rahmen des Projekts „Europeana Newspapers“ wurden Zeitungen, die teilweise bis ins 17. Jahrhundert zurückdatieren, digitalisiert und als Volltext verfügbar gemacht. Darüber hinaus wurde eine Suchmaske entwickelt, die Wissenschaftlern, Journalisten und Interessierten einen freien und unkomplizierten Zugang zu historischen Zeitungen aus 25 Bibliotheken in 23 europäischen Ländern ermöglicht. Die Gruppe Digitalisierung und Elektronische Archivierung der Universität Innsbruck war als Projektpartnerin maßgeblich an der technischen Umsetzung und Entwicklung zukunftsweisender Digitalisierungswerkzeuge beteiligt.
Wenige Klicks
Mit wenigen Eingaben und Klicks können Informationen recherchiert werden, für die früher eine zeitlich und formal aufwändige Archivsuche notwendig war: Man musste in die jeweilige Bibliothek gehen, die gewünschten Zeitungsexemplare anfordern und vor Ort unter strengen Nutzungsbedingungen sichten. Für Dr. Günter Mühlberger, den Leiter der Gruppe Digitalisierung und Elektronische Archivierung, ist das Europeana-Zeitungsprojekt ein großer Schritt für die moderne geisteswissenschaftliche Forschung. „Die Suchmöglichkeiten gehen weit über die üblichen Bibliothekskataloge hinaus, in denen meist nur anhand des Datums oder des Zeitungstitels gesucht werden kann“, sagt Mühlberger, der gemeinsam mit seinem Team für die Konvertierung von insgesamt 10 Millionen Zeitungsseiten in Volltext verantwortlich war.
Ein Vorhaben, bei dem sowohl die Expertise des Innsbrucker Teams auf dem Gebiet der Texterkennung als auch die am Standort vorhandene Infrastruktur gefragt war: Rund 300 Terabyte an Scandaten aus ganz Europa mussten verarbeitet werden. „Wir kommen auf zwei Jahre reine Rechenzeit auf 32 Cores“, beschreibt der technische Projektleiter, Günter Hackl, den Aufwand und fügt nicht ohne Stolz hinzu, dass die Universität Innsbruck europaweit einen der größten Cluster im Bereich der Optical Character Recognition (kurz OCR) aufgebaut hat.
Hohe Textqualität
An der Universität Innsbruck beschäftigt man sich seit vielen Jahren mit Fragen und Problemen der Texterkennung von historischen Schriftarten; Günter Mühlberger hat hier wesentlich zur Realisierung und Verbesserung der entsprechenden Software beigetragen. „Im Rahmen des METADATA ENGINE Projekts waren wir an der Entwicklung der ersten OCR-Software beteiligt, die für Frakturschrift funktionierte. Damals wurde auch von Gregor Retti, Birgit Stehno und Alexander Egger der Metadatenstandard ALTO entwickelt, mit dem die Daten aus der Texterkennung in ein maschinenlesbares Format geschrieben werden. Mittlerweile hat sich ALTO auf der ganzen Welt als Standard etabliert und wird von der Library of Congress empfohlen“, erzählt Mühlberger von den Ergebnissen früherer wissenschaftlicher Digitalisierungsprojekte, mit denen sich das Innsbrucker Team für die Anforderungen des Europeana Projekts qualifizierte.
Gerade Zeitungsseiten sind aufgrund der Papierbeschaffenheit und des komplizierten Layouts eine besondere Herausforderung. „Fortlaufender Text wird am besten erkannt, Anzeigen und Überschriften etwas schlechter“, sagt Mühlberger. Die Ergebnisse lassen sich jedenfalls lesen: Im Durchschnitt liegt die Genauigkeit bei etwa 80 Prozent, 8 von 10 Wörtern werden also richtig identifiziert, was eine sinnvolle Stichwortsuche laut Mühlberger möglich macht.
Gebündelte Daten
Die Recherche mit dem Europeana-Browser ist aus einem weiteren Grund besonders praktisch: Alle Daten sind an einer Stelle gebündelt, mit der Suchmaschine können daher Zeitungen aus mehreren europäischen Ländern nach einem Orts- oder Personennamen beziehungsweise einem Stichwort durchforstet werden. Insbesondere für länderübergreifende und vergleichende Forschungsvorhaben eröffnen sich dadurch neue Möglichkeiten. Mühlberger, im Übrigen selbst Germanist, sieht sich als Mittler zwischen Geisteswissenschaften und Informatik, zwischen Archiven und Bibliotheken und ihren Nutzern. „Digital Humanities sind erst dann wirklich möglich, wenn eine entsprechende Datenbasis verfügbar ist.“
Europeana: grenzenloses Schmökern
Über mehr als drei Jahre hinweg arbeiteten 18 Institutionen aus ganz Europa eng zusammen, um unter dem Titel „Europeana Newspapers“ die Vision vom grenzlosen Schmökern in historischen Zeitungen zu verwirklichen. 11 assoziierte Partner und 35 Netzwerkpartner komplettieren die internationale Projektpartnerschaft. Koordiniert wurde das mit März 2015 abgeschlossene Projekt von der Staatsbibliothek zu Berlin, die Universität Innsbruck und die Nationalbibliothek sind als österreichische Institutionen beteiligt. Finanziert wurde das Vorhaben zum Teil mit Mitteln aus dem Forschungsrahmenprogramm der EU-Kommission (CIP 2007-2014).
Dieser Artikel ist in der April-Ausgabe des Magazins „wissenswert“ erschienen. Eine digitale Version ist hier zu finden (PDF).