OCR — Texterkennung

Dies ist für Redaktionen vor allem für zwei Zwecke von Interesse: einerseits zur einfacheren Erfassung von Texten, die noch als Typoskript (mit Schreibmaschine geschriebener Text) vorliegen; andererseits zur Erfassung von gedruckten Texten, die z.B. zwecks Web-Publikation digitalisiert werden sollen.

Dafür gibt es zahlreiche kommerzielle (und nicht gerade billlige) Anwendungen, auch werden solche Anwendungen mit manchen Scannern und Multifunktionsgeräten mitgeliefert.

Ich werde versuchen, hier Open-Source-Anwendungen zu sammeln, die sich als mindestens gut brauchbar erwiesen haben.

Werbung

Im World Wide Web

  • gImageReader
    • Import PDF documents and images from disk, scanning devices, clipboard and screenshots
    • Process multiple images and documents in one go
    • Manual or automatic recognition area definition
    • Recognize to plain text or to hOCR documents
    • Recognized text displayed directly next to the image
    • Post-process the recognized text, including spellchecking
    • Generate PDF documents from hOCR documents

Werbung

Texterkennung bei Wikipedia

Beispiel einer automatischen Texterkennung

Texterkennung oder auch Optische Zeichenerkennung (englische Abkürzung OCR von englisch optical character recognition) ist ein Begriff aus der Informationstechnik und bezeichnet die automatisierte Texterkennung innerhalb von Bildern.

Grundsätzliches[Bearbeiten | Quelltext bearbeiten]

Texterkennung ist deshalb notwendig, weil optische Eingabegeräte (Scanner oder Digitalkameras, aber auch Faxempfänger) als Ergebnis ausschließlich Rastergrafiken liefern können, d. h. in Zeilen und Spalten angeordnete Punkte unterschiedlicher Färbung (Pixel). Texterkennung bezeichnet dabei die Aufgabe, die so dargestellten Buchstaben als solche zu erkennen, d. h. zu identifizieren und ihnen den Zahlenwert zuzuordnen, der ihnen nach üblicher Textcodierung zukommt (ASCII, Unicode). Automatische Texterkennung und OCR werden im deutschen Sprachraum oft als Synonym verwendet. In technischer Hinsicht bezieht sich OCR jedoch nur auf den Teilbereich der Mustervergleiche von separierten Bildteilen als Kandidaten zur Erkennung von Einzelzeichen. Diesem OCR-Prozess geht eine globale Strukturerkennung voraus, in der zuerst Textblöcke von graphischen Elementen unterschieden, die Zeilenstrukturen erkannt und schließlich Einzelzeichen separiert werden. Bei der Entscheidung, welches Zeichen vorliegt, kann über weitere Algorithmen ein sprachlicher Kontext berücksichtigt werden.

Ursprünglich wurden zur automatischen Texterkennung eigens entworfene Schriftarten entwickelt, die zum Beispiel für das Bedrucken von Scheckformularen verwendet wurden. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OCR-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. So zeichnet sich die Schriftart OCR-A (DIN 66008, ISO 1073-1) durch einander besonders unähnliche Zeichen, besonders bei den Ziffern, aus. OCR-B (ISO 1073-2) ähnelt mehr einer serifenlosen, nicht-proportionalen Schriftart, während OCR-H (DIN 66225) handgeschriebenen Ziffern und Großbuchstaben nachempfunden wurde.

Die gestiegene Leistungsfähigkeit moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von „normalen“ Druckerschriftarten bis hin zu Handschriften (etwa bei der Briefverteilung); wenn jedoch Lesbarkeit durch Menschen nicht vorrangig ist, werden drucktechnisch und erkennungstechnisch einfacher handhabbare Strichcodes genutzt.

Moderne Texterkennung umfasst inzwischen mehr als reine OCR, das heißt die Übersetzung einzelner Schriftzeichen. Zusätzlich werden Methoden der Kontextanalyse, Intelligent Character Recognition (ICR), hinzugezogen, mit denen die eigentlichen OCR-Ergebnisse korrigiert werden können. So kann ein Zeichen, das eigentlich als „8“ erkannt wurde, zu einem „B“ korrigiert werden, wenn es innerhalb eines Wortes steht. Statt „8aum“ wird also „Baum“ erkannt. Im Bereich industrieller Texterkennungssysteme wird daher von OCR/ICR-Systemen gesprochen. Die Grenzen des OCR-Begriffes sind jedoch fließend, denn OCR und ICR dienen auch als Marketingbegriffe, um technische Weiterentwicklungen besser vermarkten zu können. Auch Intelligent Word Recognition (IWR) fällt unter diese Kategorie. Dieser Ansatz versucht das Problem bei der Erkennung von Fließhandschriften zu lösen, bei der die Einzelzeichen nicht eindeutig separiert und daher nicht über herkömmliche OCR-Methoden erkannt werden können.

Ein prinzipiell anderer Ansatz der Texterkennung wird bei der Handschriftenerkennung auf Touchscreens oder Eingabefeldern (PDA usw.) verwendet. Hier werden vektorbasierte Muster verarbeitet, entweder ‚offline‘ als gesamtes Wort oder ‚online‘ mit zusätzlicher Analyse des Eingabeflusses (beispielsweise Apples Inkwell).

Eine Sonderform der Texterkennung ergibt sich beispielsweise bei der automatischen Verarbeitung des Posteingangs großer Firmen. Eine Aufgabenstellung ist das Sortieren der Belege. Dafür braucht nicht immer der Inhalt analysiert zu werden, sondern es genügt manchmal schon, die groben Merkmale, etwa das charakteristische Layout von Formularen, Firmenlogos etc., zu erkennen. Die Klassifikation bestimmter Textarten erfolgt wie bei der OCR über eine Mustererkennung, die sich jedoch global auf das gesamte Blatt oder definierte Stellen anstelle einzelner Buchstaben bezieht.

Verfahren[Bearbeiten | Quelltext bearbeiten]

Ausgangspunkt ist eine Bilddatei (Rastergrafik), die von der Vorlage per Scanner, Digitalfotografie oder Videokamera erzeugt wird. Die Texterkennung selbst erfolgt dreistufig:

Seiten- und Gliederungserkennung[Bearbeiten | Quelltext bearbeiten]

Die Bilddatei wird in relevante Bereiche (Texte, Bildunterschriften) und irrelevante Bereiche (Abbildungen, Weißflächen, Linien) aufgeteilt.

Mustererkennung[Bearbeiten | Quelltext bearbeiten]

Fehlerkorrektur auf Pixelebene[Bearbeiten | Quelltext bearbeiten]

Die Rohpixel können durch ihre Nachbarschaftsbeziehungen zu angrenzenden Pixeln korrigiert werden. Einzelne Pixel werden gelöscht. Fehlende Pixel können ergänzt werden. Dadurch erhöht sich die Trefferquote bei einem reinen Mustervergleich. Dies ist stark abhängig vom Kontrast der Vorlage.

Mustervergleich Mapping[Bearbeiten | Quelltext bearbeiten]

Die Pixelmuster der Textbereiche werden mit Mustern in einer Datenbank verglichen, Rohdigitalisate werden erzeugt.

Fehlerkorrektur Zeichenebene (Intelligent Character Recognition, ICR)[Bearbeiten | Quelltext bearbeiten]

Die Rohdigitalisate werden mit Wörterbüchern verglichen sowie nach linguistischen und statistischen Verfahren hinsichtlich ihrer wahrscheinlichen Fehlerfreiheit bewertet. In Abhängigkeit von dieser Bewertung wird der Text ausgegeben oder gegebenenfalls einer erneuten Layout- oder Mustererkennung mit veränderten Parametern zugeführt.

Fehlerkorrektur auf Wortebene (Intelligent Word Recognition, IWR)[Bearbeiten | Quelltext bearbeiten]

Fließhandschrift, bei der die Einzelzeichen nicht voneinander getrennt erkannt werden können, wird anhand globaler Charakteristiken mit Wörterbüchern verglichen. Die Treffergenauigkeit verringert sich mit der zunehmenden Größe des eingebundenen Wörterbuches, da die Verwechslungsmöglichkeiten zunehmen. Einsatzbereiche sind definierte Feldbereiche mit eingeschränkten Angabenmöglichkeiten, zum Beispiel handgeschriebene Adressen auf Briefumschlägen.

Manuelle Fehlerkorrektur[Bearbeiten | Quelltext bearbeiten]

Viele Programme bieten darüber hinaus einen besonderen Modus zur manuellen Korrektur nicht sicher erkannter Zeichen.

Codierung in das Ausgabeformat[Bearbeiten | Quelltext bearbeiten]

Je nach Aufgabenstellung erfolgt die Ausgabe in eine Datenbank oder als Textdatei in einem definierten Format wie ASCII oder XML, gegebenenfalls auch mit Layout (etwa als HTML oder PDF).

Die Qualität der Texterkennung bestimmen unter anderem mehrere Faktoren:

  • Qualität der Layouterkennung,
  • Umfang und Qualität der Muster-Datenbank,
  • Umfang und Qualität der Wörterbücher,
  • Qualität der Algorithmen zur Fehlerkorrektur,
  • Farbigkeit, Kontrast, Layout und Schriftart des Originaldokumentes,
  • Auflösung und Qualität der Bilddatei.

Die Zahl der unerkannten Fehler in einem Dokument lässt sich abschätzen, siehe Rechtschreibfehler. Während Texte Redundanzen enthalten und deshalb eine höhere Fehlerrate zulassen, erfordern Zahlenlisten, wie beispielsweise Telefonnummern, ein mehrmaliges Korrekturlesen.

Erfolge durch neuronale Netze[Bearbeiten | Quelltext bearbeiten]

In jüngster Zeit erzielten künstliche neuronale Netzwerke bei Handschriftanwendungen oft bessere Ergebnisse als konkurrierende Lernverfahren. Zwischen 2009 und 2012 gewannen die rekurrenten bzw. tiefen vorwärtsgerichteten neuronalen Netzwerke der Forschungsgruppe von Jürgen Schmidhuber am Schweizer KI Labor IDSIA eine Serie von acht internationalen Wettbewerben in den Bereichen Mustererkennung[1]. Insbesondere gewannen ihre rekurrenten LSTM Netzwerke[2][3] drei Wettbewerbe zur verbundenen Handschrifterkennung bei der "2009 Intl. Conf. on Document Analysis and Recognition (ICDAR)", ohne eingebautes a priori-Wissen über die drei verschiedenen zu lernenden Sprachen. Die LSTM-Netze erlernten gleichzeitige Segmentierung und Erkennung[4]. Dies waren auch die ersten internationalen Wettbewerbe, die durch Deep Learning[5][6] oder durch rekurrente Netze gewonnen wurden.

Auch tiefe vorwärtsgerichtete Netzwerke wie Kunihiko Fukushimas Konvolutionsnetz der 1980er Jahre[7] sind heute wieder wichtig für Handschrifterkennung. Sie verfügen über alternierende Konvolutionslagen und Lagen von Neuronen, die miteinander im Wettbewerb stehen. Yann LeCuns Team von der New York University wendete den 1989 schon gut bekannten backpropagation Algorithmus auf solche Netze an[8]. Moderne Varianten verwenden sogenanntes "max-pooling" für die Wettbewerbslagen[9]. Zum Abschluss krönt man das tiefe Netz durch mehrere normale Neuronenlagen. Schnelle GPU-Implementierungen dieser Kombination wurden 2011 durch Dan Ciresan und Kollegen in Schmidhubers Gruppe eingeführt[10]. Sie gewannen seither zahlreiche Wettbewerbe zur Erkennung von Handschrift und anderen Mustern[11]. GPU-basierte "max-pooling" Konvolutionsnetze waren auch die ersten Verfahren, die die handgeschriebenen Ziffern des MNIST Benchmarks so gut erkennen konnten wie Menschen[12].

Auch bei gedrucktem Text gibt es einen Trend, die klassische zeichenweise Texterkennung durch zeilenweise Texterkennung mittels neuronaler Netze zu ersetzen. Diese Technik wird in den Programmen OCRopus und Tesseract (ab Version 4) eingesetzt.

Anwendungen[Bearbeiten | Quelltext bearbeiten]

  • Wiedergewinnen von Textinformation aus Bilddateien, um diese mit Hilfe einer Textverarbeitung weiter zu bearbeiten oder elektronisch durchsuchbar zu machen
  • Erkennung von relevanten Merkmalen (zum Beispiel Postleitzahl, Vertragsnummer, Rechnungsnummer) zur mechanischen (Poststraße) oder elektronischen (Workflow-Management-System) Einsortierung eines Schriftstücks
  • Eine erweiterte Volltextsuche in Datenbanken oder Document-Management-Systemen, um auch PDFs und Bilder durchsuchen zu können.
  • Erkennung von Merkmalen zur Registrierung und gegebenenfalls Verfolgung von Gegenständen (beispielsweise Kfz-Kennzeichen)
  • Layouterkennung: Es wird ein formatiertes Dokument erstellt, das der Vorlage bezüglich Text-, Bild- und Tabellenanordnung möglichst nahekommt.
  • Blindenhilfsmittel: Für Blinde wird es durch die Texterkennung möglich, eingescannte Texte über Computer und Braillezeile zu lesen oder sich per Sprachausgabe vorlesen zu lassen.

OCR-Software[Bearbeiten | Quelltext bearbeiten]

Proprietäre Software[Bearbeiten | Quelltext bearbeiten]

Als Nebenfunktion in proprietärer Software:

Freie Software[Bearbeiten | Quelltext bearbeiten]

Siehe auch[Bearbeiten | Quelltext bearbeiten]

Einzelnachweise[Bearbeiten | Quelltext bearbeiten]

  1. http://www.kurzweilai.net/how-bio-inspired-deep-learning-keeps-winning-competitions 2012 Kurzweil AI Interview mit Jürgen Schmidhuber zu den acht Wettbewerben, die sein Deep Learning Team zwischen 2009 und 2012 gewann
  2. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552; ein gleichnamiges Preprint befindet sich unter: http://people.idsia.ch/~juergen/nips2009.pdf
  3. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
  4. Schmidhuber, Jürgen; Winning Handwriting Recognition Competitions Through Deep Learning, http://www.idsia.ch/~juergen/handwriting.html
  5. Bengio, Y. (2009). Learning Deep Architectures for AI.. Now Publishers. http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf
  6. Schmidhuber, Jürgen; My First Deep Learning System of 1991 + Deep Learning Timeline 1962-2013, http://www.idsia.ch/~juergen/firstdeeplearner.html
  7. Fukushima, K.: Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. In: Biological Cybernetics. 36, Nr. 4, 1980, S. 93–202. doi:10.1007/BF00344251.
  8. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel. Backpropagation Applied to Handwritten Zip Code Recognition. Neural Computation, 1(4):541-551, 1989. http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf
  9. M. Riesenhuber, T. Poggio. Hierarchical models of object recognition in cortex. Nature neuroscience, 1999. http://riesenhuberlab.neuro.georgetown.edu/docs/publications/nn99.pdf
  10. D. C. Ciresan, U. Meier, J. Masci, L. M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence (IJCAI-2011, Barcelona), 2011. http://www.idsia.ch/~juergen/ijcai2011.pdf
  11. J. Schmidhuber, 2009–2013: Deep Learning since 1991: First Deep Learners to Win Contests in Pattern Recognition, Object Detection, Image Segmentation, Sequence Learning, Through Fast & Deep / Recurrent Neural Networks. www.deeplearning.it
  12. D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012. http://www.idsia.ch/~juergen/cvpr2012.pdf

Weblinks[Bearbeiten | Quelltext bearbeiten]

Videos

Die nachfolgenden Videos werden anhand von Suchbegriffen automatisch angezeigt. Sie unterliegen keiner redaktionellen Prüfung, weshalb ich keine Verantwortung für die Qualität des Inhalts übernehme!

6 Best, top And Free OCR Software 2015 List For Windows 10/7/8/XP/Vista http://www.softsuggester.com
If you need Free Easy OCR, please go to: http://www.freeease.net/p-freeocr/overview.html It (...)
Top 5 List of Best OCR Software. Real People, Real Reviews Only on: http://www.peoplereviews.net
http://www.ocrterminal.com/ Optical character recognition works by analyzing your image and (...)
This Tutorial is all about OCR recognisation (transcribe image to text). Optical character (...)
How do computers read text on a page, and how has the technology improved? Freshbooks message: (...)
A tutorial on Best Scanning Software Compatible with every printer and freeware, with many (...)
Download Link: http://howtoguides2learn.hubpages.com/video/How-to-Convert-Photo-to-Text-Free-OCR#mo
Take our FREE classes at http://pcclassesonline.com OCR Software (Optical Character (...)
fax ocr software optical character recognition software open source best ocr software for (...)
Los programas OCR gratuitos suelen ser pocos y de una calidad limitada en idiomas que no sea (...)
Die Abbyy OCR Texterkennungssoftware für Linux in Ubuntu Linux installieren und für 100 Dokumente (...)
If you are seeing and typing, it will fetch you a longer time so to make it easy FreeOCR (...)
http://twitter.com/chrispirillo - What do you call a guy with OCD in need of OCR? I guess you'd (...)
See the Top 5 Tech Tools to Take Control of Your Classroom! http://teachers.tech/top-5-classroom-tec
Discover how to use OCR software (optical character recognition) feature within Scanitto Pro (...)
More info: http://goo.gl/Z7NMC Free yourself from paper! Readiris 14 is a powerful OCR software (...)
Download Link: http://www.paperfile.net/download.html FreeOCR is Optical Character Recognition (...)
Download Link: http://howtoguides2learn.hubpages.com/video/How-to-Convert-Photo-to-Text-Free-OCR#mod
How to convert image to text (ocr) with the best OCR software To convert image to text you need (...)
Google hat in seiner Textverarbeitung Google Docs eine OCR-Software spendiert. So kommt nun (...)
Link to the Article -- http://goo.gl/20M493 Want to extract text from the Images? Do you know (...)
Capture2Text es un programa portable y libre para Windows que ofrece la funcionalidad OCR (...)
Learn how to use optical character recognition in Nitro Pro. Learn more at (...)
CVISION's Maestro Recognition Server is a server-based PDF & OCR solution providing industrial (...)
Erfahren Sie mehr: https://www.abbyy.com/de-de/finereader/professional/ (für Home Office) (...)
Awesome software that can read text from pictures! When copy-n-pastin, make sure 'Handles (...)
Install Tesseract first in the PC http://chillyfacts.com/convert-image-to-text-using-cmd-prompt/
Weitere Videos finden Sie auf http://www.vidorial.com Google hat in seiner Textverarbeitung (...)
Tutorial on how to use free GT Text OCR software to copy text from images in English, Japanese, (...)
A bumper video containing lots of information about software which has lead on straight from (...)
With the optional OCR module, PixEdit produces searchable PDF/A documents automatically during (...)
Every type of instruction needed to reach your full potential and dreams yourtechvision.com
OCR (Optical Character Recognition) is an excellent intelligent recognition technology that can (...)
For a text guide: http://www.tinyurl.com/ah6m9d6 If you need this free image ocr software: (...)
Optical character reading. Convert image to editable word/text . Contact: (...)
http://www.bestocrsoftware.com - This is a brief explanation on what OCR is and how Best OCR (...)
A quick tutorial on how to use Google Drive to convert scanned text into editable text. Please (...)
With the new Readiris 15, discover a new way to work with documents! Forget your retyping work! (...)
http://www.JapanScholar.com ← Want to study in Japan? :) Optical Character Recognition (OCR) is (...)
Scanitto Pro: Sensible scanning for sensible people - who would rather enjoy life than battle (...)
Hello! Welcome to my online video tutorial where you will learn how to easily convert a photo (...)
PDF OCR Software (A-PDF OCR: http://a-pdf.com/ocr/index.htm ) is an efficient application that (...)
ABBYY is launching FineReader 14 - an all-in-one software solution for working with scans and (...)
Readiris Pro 14 is a powerful OCR solution for professional users and small businesses. With (...)
What is OCR? What benefits can i obtain using an OCR inside my organization? This OCR software (...)
Download the OCR set up here and View detailed documentation here, http://chillyfacts.com/convert-i
Advanced OCR Free helps you view PDF files and automate the transformation of image-based (...)

In der Warenwelt

Nuance Omnipage 18 Standard

Nuance Communications, CD-ROM, Deutsch, Juni 2011
Zeit sparen durch optische Zeichenerkennung: Scannen und OCR Scannen, Dokumente konvertieren, Optische Zeichenerkennung: Nutzen Sie Ihren Vorteil mit der neuesten Version der weltweit meistverkauften OCR-Software! Mit OmniPage 18 Standard konvertieren Sie Ihre (...)

Winnetou II

Karl May
Garant, Renningen, Taschenbuch, Deutsch, 512 Seiten, ISBN: 3867662258, Dezember 2009

C-Pen TS1 bundle - Scannerstift inkl. OCR- und Textübersetzungsprogramm

C Technologies, Elektronik, ISBN: 3898946827,
Der C-Pen TS1 digitalisiert schnell und einfach gedruckten Text und Zahlen mit einer Scangeschwindigkeit von bis zu 25 cm/s. Die Datenübertragung erfolgt über den USB-Kabel. Der Kabel hat eine bequeme Länge von 1,5 Metern. Damit ist der C-Pen TS1 ideal für alle, die gedruckte Informationen, statt (...)

ABBYY FineReader 11 Professional Edition

ABBYY Europe GmbH, CD-ROM, Deutsch,
FineReader Professional Edition - (V. 11 ) - Full Package Product

SV OmniPage Pro Office v14 CD W32 / Texterkennungssoftware

Scansoft, CD-ROM,

OmniPage Pro v11/dt. CD W32 Texterkennungssoftware

Scansoft, CD-ROM,
Sie müssen für eine Dokumentation einen Zeitungsartikel abtippen? Sie wollen die vergilbten Memoiren Ihrer Tante archivieren, die diese Ende der 60er-Jahre auf ihrer alten Schreibmaschine verfasste? Sie wollen eine Volltextsuche für Ihre gesamte Korrespondenz? Dann kommen Sie an OmniPage Pro 11 (...)

SV Paperport Pro v10 CD W32 / Texterkennungssoftware

Scansoft, CD-ROM,

SV Paperport Pro Office v9 CD W32 / Texterkennungssoftware

Scansoft, CD-ROM,

SV OmniPage Pro Office v12/dt. CD W32 Texterkennungssoftware

Scansoft, CD-ROM,

Textbridge Pro 11 CD W32 - Texterkennungssoftware

Scansoft, CD-ROM,

FineReader Sprint 5 Texterkennungssoftware Texterkennung OCR Schrifterkennung

EUR 5,00
Angebotsende: Donnerstag Nov-9-2017 12:41:43 CET
Sofort-Kaufen für nur: EUR 5,00
Sofort-Kaufen | Zur Liste der beobachteten Artikel hinzufügen

BenutzerIn

Werbung

Weiterempfehlen

© 2002 - 2017 Robert Zöchling | erstellt mit SPIP  | Impressum