Zeitungsdownload

Hier finden Sie ausführlich erklärten Programmcode, den Sie nutzen können, um automatisiert alle Ressourcen (Bilder, Volltexte, PDFs) von Zeitungen herunterzuladen, die per Visual Library gehostet werden. Dies funktioniert über den Zugriff auf die entsprechenden OAI/METS-Datensätze.

Um den Beispielcode auszuführen, benötigen Sie Python oder eine JupyterLab-Umgebung.

Es gibt vier verschiedene Komplexitätslevel, die verschiedenen Ansprüchen gerecht werden. Die Inhalte der ersten drei Level stehen jeweils als HTML-Dokument, als PDF und als IPYNB-Dokument zur Verfügung. Für das letzte Level steht ein Kommandozeilen-Skript zur Verfügung.

Hintergrund

Visual Library bietet ihren Nutzern neben einer ausführlichen Suchfunktion und der vollständigen und zugänglichen Darstellung im Browser auch die Möglichkeit, die zugrundliegenden Rohdateien herunterzuladen. Für jede Einzelseite und für das PDF jeder Ausgabe findet sich diese Option unmittelbar auf der Website. Für manche Anwender ist es jedoch interessant oder notwendig, sehr viele Ressourcen herunterzuladen, etwa für alle Seiten eines Zeitungsunternehmens. Dies könnte beispielsweise der Fall sein, wenn eine Weiterverarbeitung mit Korpusanalyse-Programmen angestrebt wird. Dafür bietet die VL eine offene Schnittstelle, die auf den Standards OAI, METS und MODS basiert und gemäß den DFG-Anforderungen strukturiert ist. Unter Verwendung dieser Schnittstelle kann in standardisierter Form auf alle Metadaten und alle Rohdateien zugegriffen werden. Dies ermöglicht den vollständig kontrollierten Download von Ressourcen nach den eigenen Vorstellungen, z.B. mit (sehr) spezifischen Dateinamen.

Download einer einzelnen Ausgabe

Zum Einstieg wird anhand des Portals zeitpunkt.nrw gezeigt, wie man von der üblichen Ansicht einer Zeitungsausgabe zu dem damit verbundenen OAI/METS-Datensatz kommt. Anschließend wird erklärt, wie man diesen nutzen kann, um automatisch die zu einer Ausgaben gehörigen Ressourcen herunterzuladen.

Download aller Ressourcen eines Zeitungsunternehmens

Hier wird zunächst die Struktur näher erklärt, die der Organisation und Speicherung der zu einem Zeitungsunternehmen gehörigen Ressourcen zugrunde liegt. Danach wird diese Struktur genutzt, um mittles des OAI/METS-Datensatzes, der das Zeitungsunternehmen repräsentiert, alle Ressourcen automatisiert herunterzuladen. Mit wenigen Anpassungen des Codes kann dies auch nur für eine einzelne Zeitung erfolgen. Als Beispiel dient das Zeitungsunternehmen Augsburger Postzeitung

Download mit konfigurierbaren Namenseinstellungen

In dieser dritten Version wird der Code um einige Features erweitert, die es ermöglichen, die Ordnerstruktur und die Dateinamen flexibel zu gestalten. Dadurch wird zum Beispiel eine Speicherung möglich, die eine anschließende Weiterverarbeitung mit Korpusanalyseprogrammen vereinfacht.

Skript für die Kommandozeile

Der Kommandozeilen-Downloader ermöglicht die Ausführung aus der Kommandozeile. So können Sie zum Beispiel verschiedene Donwloadvorhaben mit derselben Konfiguration durchführen. Die Funktionen der dritten Version sind um zwei Möglichkeiten ergänzt: Erstens können Sie direkt die Ressourcen mehrerer Zeitungsunternehmen oder einen ganzen OAI-Datensatz herunterladen. Zweitens können Sie datumsbasiert filtern, welche Ressourcen heruntergeladen werden sollen. Außerdem wurde ein Mechanismus zur Vermeidung von zu langen Dateinamen inkludiert.

(Für das Ausführen des Skripts benötigen Sie die Bibliotheken lxml und requests. Hinweise zur Installation dieser finden sich auch im Howto.)