Howto newspaper_download.py 1) Installation von Python, Python-Biliotheken und Ausführung von Python-Skripten 1.1) Python installieren: https://www.python.org/downloads/ 1.2) Mit dem in Python integrierten Paketmanager pip die beiden Bibliotheken lxml und requests installieren. Die Eingabaufforderung (cmd) des Betriebssystems öffnen (unter Windows: Suche nach "cmd"). Die Installationen nacheinander mit folgenden Befehlen durchführen: > pip install lxml > pip install requests 1.3) In das Verzeichnis navigieren, in dem newspaper_download.py liegt. > cd *Verzeichnispfad* 1.4) Das Skript kann dann folgendermaßen gestartet werden: > python newspaper_download.py (Dies führt zu einem Fehler, weil kein Argument übergeben wurde) Die Hilfe mit Erklärungen zu den einzelnen Paramtern aufrufen: > python newspaper_download.py -h Das Skript mit dem notwendigen Argument "resource" aufrufen: > python newspaper_download.py *recource_to_download* Ein laufendes Skript können Sie bei Bedarf mit Strg+C abbrechen. 2) Anwendungsbeispiele von newspaper_download.py Die folgenden Argumente können Sie zur Konfiguration anhängen an: > python newspaper_download.py 2.1) Alle Ressourcen des Zeitungsunternehmens Augsburger Postzeitung mit Standardeinstellungen herunterladen Zu Übergebende Argumente: "https://visuallibrary.net/dps/oai/?verb=GetRecord&metadataPrefix=mets&identifier=436884" Gesamter Aufruf-Befehl: python newspaper_download.py "https://visuallibrary.net/dps/oai/?verb=GetRecord&metadataPrefix=mets&identifier=436884" 2.2) Ressource: Zeitungsunternehmen Augsburger Postzeitung "https://visuallibrary.net/dps/oai/?verb=GetRecord&metadataPrefix=mets&identifier=436884" Downloadordner zu "AB_PZ" ändern --base AB_PZ Nur Volltexte herunterladen --formats fulltext Einen Ordner nur für jede Ausgabe anlegen (d.h. nicht nach Zeitungen oder Jahrgängen unterteilen) --folder_structure base issue Den Namen der Ausgabe (d.i. im Regelfall ihr Erscheinungsdatum) in den Dateinamen der Ressourcen dieser Ausgabe inkludieren --page_name_format "ISSUE_NAME Seite PAGE_NO" Die VL-ID an jede Verwendung des Ausgabennamens (in Ordner- oder Dateinamen) anhängen --append_vl_id issue Nur Ausgaben herunterladen, die im Oktober, November oder Dezember erschienen sind --months 10 11 12 Zu übergebende Argumente: "https://visuallibrary.net/dps/oai/?verb=GetRecord&metadataPrefix=mets&identifier=436884" --base AB_PZ --formats fulltext --folder_structure base issue --page_name_format "ISSUE_NAME Seite PAGE_NO" --append_vl_id issue --months 10 11 12 Gesamter Aufruf-Befehl: python newspaper_download.py "https://visuallibrary.net/dps/oai/?verb=GetRecord&metadataPrefix=mets&identifier=436884" --base AB_PZ --formats fulltext --folder_structure base issue --page_name_format "ISSUE_NAME Seite PAGE_NO" --append_vl_id issue --months 10 11 12 2.3) Ressource: Badische Volks-Zeitung "https://druckschriften-digital.marchivum.de/zd/oai/?verb=GetRecord&metadataPrefix=mets&identifier=87636" Nur die PDFs (von Ausgaben) herunterladen --formats download Die Dateien in der Ordnerstruktur base/newspaper/year speichern --folder_structure base newspaper year Nicht den automatisch generierten Namen der Zeitung nutzen, sondern statdessen: "Badische Volkszeitung" --newspaper_names 87636:"Badische Volkszeitung" Das Datum in Ausgabenamen (in Ordnernamen oder Dateinamen) soll nach dem Muster JJJJ.MM.TT gebildet werden --issue_name_format %Y.%m.%d Die Namen der Dateien (d.i. ein PDF pro Ausgabe) sollen nur aus dem Namen der Ausgabe bestehen --page_name_format ISSUE_NAME An keinen Namensbestandteil (von Ordnern oder Dateien) soll die VL ID angehangen werden --append_vl_id "" Es sollen nur Ausgaben, die an den ersten drei Tagen eines Monats erschienen sind, heruntergeladen werden --days 1 2 3 Zu übergebende Argumente: "https://druckschriften-digital.marchivum.de/zd/oai/?verb=GetRecord&metadataPrefix=mets&identifier=87636" --formats download --folder_structure base newspaper year --newspaper_names 87636:"Badische Volkszeitung" --issue_name_format %Y.%m.%d --page_name_format ISSUE_NAME --append_vl_id "" --days 1 2 3 Gesamter Aufruf-Befehl: python newspaper_download.py "https://druckschriften-digital.marchivum.de/zd/oai/?verb=GetRecord&metadataPrefix=mets&identifier=87636" --formats download --folder_structure base newspaper year --newspaper_names 87636:"Badische Volkszeitung" --issue_name_format %Y.%m.%d --page_name_format ISSUE_NAME --append_vl_id "" --days 1 2 3