Dies ist für Redaktionen vor allem für zwei Zwecke von Interesse: einerseits zur einfacheren Erfassung von Texten, die noch als Typoskript (mit Schreibmaschine geschriebener Text) vorliegen; andererseits zur Erfassung von gedruckten Texten, die z.B. zwecks Web-Publikation digitalisiert werden sollen.

Dafür gibt es zahlreiche kommerzielle (und nicht gerade billlige) Anwendungen, auch werden solche Anwendungen mit manchen Scannern und Multifunktionsgeräten mitgeliefert.

Ich werde versuchen, hier Open-Source-Anwendungen zu sammeln, die sich als mindestens gut brauchbar erwiesen haben.


Im World Wide Web

  • gImageReader
    • Import PDF documents and images from disk, scanning devices, clipboard and screenshots
    • Process multiple images and documents in one go
    • Manual or automatic recognition area definition
    • Recognize to plain text or to hOCR documents
    • Recognized text displayed directly next to the image
    • Post-process the recognized text, including spellchecking
    • Generate PDF documents from hOCR documents



