Es ist beruhigend: Menschen sind besser als Computer. Zumindest beim Lesen. Nach wie vor gelingt es auch der besten Hard- und Software in der Regel nicht, an die Lesegenauigkeit eines Menschen heranzukommen. Das aber wird sich bald ändern. Am Fraunhofer IAIS arbeiten Forscher daran, eine KI so gut zu trainieren, dass sie auch schlechte Scans exakt »lesen« können. Einziges Problem: Es fehlt noch an Trainingsmöglichkeiten. Die Forscher beziehen deshalb die Öffentlichkeit mit ein. 

Hallo Herr Konya, Texterkennungsprogramme gibt es seit Jahren. Die sogenannte Optical Character Recognition-Software, kurz OCR, erkennt Buchstaben, digitalisiert das Ergebnis und transferiert es beispielsweise in ein Textverarbeitungsprogramm oder eine Datenbank. Die meisten der OCR-Programme interpretieren rund 99 Prozent des Textes richtig. Trotzdem haben Sie und Ihr Team am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS es sich zur Aufgabe gemacht, das Erkennen nochmals deutlich zu verbessern.

Wir wollen möglichst menschliche Genauigkeit erreichen. Denn uns passiert es in der Regel nicht, dass wir jedes hundertste Wort falsch lesen. Wir sind deutlich besser. Gerade wenn es beispielsweise um Texte mit rechtlich relevantem Inhalt geht, ist eine Genauigkeit von 99 Prozent zu gering. Zumal wir wissen, dass die Rate deutlich abnimmt, wenn die Qualität der Vorlage nicht optimal eingescannt ist. Bei Vorlagen aus historischen Schriften und Büchern schneiden die gängigen OCR ziemlich schlecht ab.

Sie gehen aber nicht so weit, dass das Programm die Texte auch semantisch erfassen, sie also »verstehen« kann? Buchstaben und weitere Zeichen sollen lediglich erkannt und dann digital ausgegeben werden?

Es geht in der Tat ›nur‹ um statistische Modellierungen. Im Moment ausschließlich für Zeichen und Buchstaben und Hunderte der unterschiedlichsten Schriftarten, später dann zusätzlich für Wörter. Die dafür nötigen Arbeiten erledigen selbstlernende intelligente Systeme, die wir mit Deep Learning Methoden trainieren.

Damit die Software ganze Wörter zusammensetzen kann, muss sie sich dieses Wissen nach und nach erarbeiten. Dabei ist es auch wichtig, dass einzelne Erkennungs-Bausteine aufeinander aufbauen. Hier geht es zunächst darum, einzelne Buchstaben zu identifizieren, insbesondere auch dann, wenn sie zum Beispiel andere Breiten aufweisen oder schief sind. Bild: Fraunhofer IAIS

Sie trainieren diese KIs, damit sie auch unter schwierigen Bedingungen Schrift so fehlerfrei wie möglich erkennen können.

Denken Sie beispielsweise an bei schlechten Lichtverhältnissen aufgenommene Handyfotos oder einen vergilbten Druck oder verschmierte Blätter. Allerdings sind wir bei den Trainings auf ein Problem gestoßen, bei dem die Forschung an ihre Grenzen stößt: Damit die KI lernen kann, brauchen wir einerseits schwer zu entziffernde, gescannte Texte. Und andererseits die Annotationen, also die bereits digitalisierten Resultate. Nur so können wir das vermeintlich Erkannte mit dem tatsächlichen Inhalt vergleichen. Derartige Vorlagen aber sind deutlich schwieriger zu finden als gedacht.

Ihnen fehlen also Trainingsmöglichkeiten?

So kann man es nennen. Für einen Buchstaben brauchen wir mindestens 1.000 Trainingsdurchläufe mit Scans unterschiedlicher Qualität – mal auf hellem oder auf dunklem Hintergrund, mal über- oder unterbelichtet, mal gedreht und mal ein bisschen verschnitten. Und das mit mehr oder weniger Rauschen. Wir müssen alle Varianten nutzen, um umfassend zu trainieren.

Trigramme dienen dazu, um die Unterschiede einzelner Buchstaben an Hand ihrer Umgebung beurteilen zu können. Denn oft hängt die Erscheinungsform eines Buchstaben auch davon ab, ob er am Anfang eines Wortes steht oder wer seine Nachbarn sind. Das wiederum hilft auch, die benachbarten Buchstaben in schwierigen Fällen sicherer zu identifizieren. Außerdem werden so die Laufweiten der Schriftarten analysiert: wann ist es noch ein ganzes Wort, wann kommt ein Leerzeichen? Bild: Fraunhofer IAIS

Weil es aber vergleichsweise wenige Texte gibt, die öffentlich genutzt werden dürfen und die Sie zum Training einsetzen können, haben Sie sich eine Art »Trick« einfallen lassen …

Wir bieten Interessenten eine win-win-Situation an: Gemeinsam mit der CIB software GmbH haben wir unsere Engine in die Web-Anwendung CIB doXisafe integriert. Dort können Privatanwender ihre Dokumente in einer Vielzahl von Formaten ablegen, austauschen und im integrierten Viewer CIB doXiview anzeigen lassen. Vor allem aber können sie mit diesem Viewer eine Texterkennung durchführen, das Ergebnis bearbeiten und als durchsuchbares PDF bereitstellen.

Erst im letzten Schritt werden die einzelnen Erkenntnisse zu kompletten Wörtern, Sätzen und Dokumenten zusammen gesetzt. Hier sieht man auch noch einmal sehr schön, wie die Software einzelne Zeilen und Buchstaben identifiziert und das sie auch in diesem Beispiel noch einen kleinen Fehler macht. Bild: Fraunhofer IAIS

Auf diese Weise stellen Sie eine kostenfreie Serviceleistung zur Verfügung und haben gleichzeitig sozusagen »Futter« für das Training des Systems.

So ist es gedacht. Denn je mehr Daten wir generieren können, desto besser ist das Nachtraining. Und das wiederum trägt zur weiteren Verbesserung der Engine bei. Auf diese Weise dürften die Projektpartner CIB software GmbH, Mentana Claimsoft GmbH und wir bis zum Projektende im September 2018 eine deutliche Verbesserung der Texterkennungsleistung auch unter schwierigen Verhältnissen erreicht haben. (aku)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Neun + = 9
Bitte Zahl eintragen!
image description
Interviewpartner
Alle anzeigen
Dr. rer. nat. Iuliu Vasile Konya
  • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Weitere Artikel
Alle anzeigen
Panel: Unterdrücken uns Algorithmen?
Künstliche Intelligenz - Daniela Kolbe, Enquete KI
Das Richtige im Blick
Stellenangebote
Alle anzeigen