»Inseln im Meer des Beliebigen«91Die Umwandlung der Grafiken in Volltexte bedeutet einen erhebli-chen Mehraufwand, auch wenn dieser Arbeitsschritt mit Hilfe automati-sierter OCR-Software durchgeführt wird. Zwar sind Texterkennungs-programme heute deutlich leistungsstärker, leichter zu handhaben undpreiswerter als vor einigen Jahren. In einem für dieretrospektiveDigita-lisierung zentralen Punkt stoßen aber auch beste OCR-Programme an ih-re Grenzen: Kann Schrift in Antiqua, gute Vorlagenqualität vorausge-setzt, in der Regel mit Trefferquoten von annähernd 100 Prozent er-kannt werden, erfordert die bis in die 1920er Jahre im deutschen Sprach-raum weit verbreitete Frakturschrift bislang einen beträchtlichen manuel-len Trainingsaufwand, um halbwegs zufrieden stellende Ergebnisse zuerzielen. Die fortschreitende OCR-Entwicklung wird hier über kurz oderlang Abhilfe schaffen, vor allem sobald die Softwareindustrie diesesMarktsegment entdecken sollte. Bis dahin wird jedes Digitalisierungspro-jekt individuell zu entscheiden haben, ob der zu erbringende Aufwand ineinem vertretbaren Verhältnis zum Nutzen steht, wodurch letztlich im-mer auch die Corpusauswahl betroffen ist.So zentral wie die Frage nach der erzielbarenQualitätder Volltexteist das Problem, wie man die enormeQuantitätan Text auf ökonomi-sche Weise bewältigt. Allein aus Gründen der Ergonomie und Übersicht-lichkeit können mehrere zehn- oder hunderttausend Seiten nicht einfacheinem separat arbeitenden OCR-Programm zugeführt und im Anschlussmanuell in eine Datenbank überführt werden. Die Einspeisung der Gra-fiken in das hierarchisch strukturierte Verzeichnissystem und die Zuwei-sung der seitenweise erzeugten Volltexte sind vielmehr als logisch paral-lel laufende Produktionsstufen zu organisieren. Zur Vermeidung vonReibungsverlusten sollte es demnach möglich sein, die Erfassung derGrafiken und die Erzeugung beziehungsweise Verknüpfung der zugehö-rigen Volltexte nicht von getrennt arbeitenden Programmen, sondern aufeiner integralen Plattform durchzuführen.Der inCompact MemoryeingesetzteLibrary Managerwurde zu die-sem Zweck um ein OCR-Modul erweitert,41das einen auszuwählendenBestand von Grafiken komplette Periodika, bestimmte Jahrgänge, ein-zelne Hefte oder Seiten in Stapelverarbeitung in digitalen Text über-führt. Die resultierenden Textdateien werden in der Datenbank automa-tisch den entsprechenden Grafiken zugeordnet und stehen unmittelbar41Genutzt wird derzeit dieFineReader 6.0 Enginedes ABBYY Software House. Vgl. dieURL:<http://www.abbyy.com/developer_toolkits.asp?param=2395>(22.1.2004). -Die Ende 2003 releaste Betaversion 7.0 soll standardmäßig auch Frakturschrift erken-nen können. Bis Redaktionschluß konnten keine Tests durchgeführt werden.
Aufsatz in einer Zeitschrift
"Inseln im Meer des Beliebigen" : Architektur und Implementierung eines Internetportals Deutsch-jüdische Periodika
Entstehung
Seite
91
Einzelbild herunterladen
verfügbare Breiten