Inhaltsverzeichnis
Digitalisierung
Ziel der Digitalisierung ist die Umwandlung der maschinengeschriebenen Seiten in elektronisch verarbeitbare Texte. Der Prozess sieht grob betrachtet so aus:
- Scan (Abfotografieren der Texte),
- Textbereicherkennung (Vorstufe zur Texterkennung/Definition der Textbereiche),
- Texterkennung (automatisch),
- Text überarbeiten (zeilenweise),
- Zeilen zusammenführen (Absätze gemäß den Originalen bilden).
Scan
Der erste Schritt ist der Scan, bzw. das Fotografieren der otiginalen Blätter. Das ist anfänglich ein manueller Prozess, da jede Seite einzeln abfotografiert, bzw. gescannt werden muss. Die Ursache ist, dass das von Hans Widermann verwendete Schreibmaschinenpapier sehr dünn ist, unterschiedliche Formate hat und an den Ecken und Seiten oft eingerissen oder geknickt sind. Daher ist es nicht möglich das Papier mit einem handelsüblichen automatischen Scanner einzulesen.
Textbereicherkennung
Der zweite Schritt erfolgt bereits elektronisch. Dabei werden die Bereiche auf den Seiten festgelegt, die Text enthalten. Das ist zum Beispiel wichtig, wenn eine Seite mehrere Spalten von Text enthält. Eine automatische Texterkennung würde sonst die Spalten als zusammengehörig betrachten, was die spätere Nacharbeit noch schwerer machen würde, weil die Texte Zeile für Zeile wieder in Spalten getrennt werden müssten. Dieser Schritt erfolgt zum Großteil automatisch, muss aber visuell kontrolliert und gegebenenfalls korrigiert werden.
Texterkennung
Im dritten Schritt wird eine automatische Texterkennung durchgeführt, bei welcher der Software im Vorfeld mitgeteilt werden muss um welche Art von Text es sich handelt. Also etwa Handschrift oder Maschinenschrift. Im konkreten Fall wird Maschinenschrift gewählt. Die Texterkennung versucht nun die oft nicht in einer Zeile und teilweise schief getippten Texte zu erkennen. Eine Schwierigkeit dabei ist auch die unterschiedliche Farbstärke der Texte, je nach dem damaligen Zustand des Farbbandes der Schreibmaschine.
Text überarbeiten
Wenn die automatische Texterkennung fertig ist, muss jede Seite visuell überprüft und korrigiert werden. Oft sind Worte überschrieben, der Text über das Papier hinausgedruckt, es fehlen Buchstaben oder es sind Korrekturen angebracht, die nicht automatisch erkannt werden können.
Zeilen zusammenführen
Der letzte Schritt ist die Anpassung der Absätze. Die Texterkennung kann nur zeilenweise arbeiten und erkennt nicht, wann ein Absatz gemacht werden muss oder nicht. Um die Absätze gemäß der Intention des Autors zu definieren muss ein letztes Mal der Text mit der Vorlage zum Vergleich angepasst werden.