Etwa 800.000 Menschen in der Europäischen Union nutzen Gebärdensprache, weil sie gehörlos oder schwer hörgeschädigt sind. Trotzdem bleibt es schwer für sie, vollumfänglich am gesellschaftlichen Leben teilzunehmen. Der Einsatz von Gebärdensprachdolmetscher*innen beispielsweise bei TV- und Internetübertragungen oder bei größeren Veranstaltungen könnte die Situation verbessern. Aber er ist kostspielig. Eine Simultanübersetzung ist daher immer noch die Ausnahme. Dank automatisierten Übersetzungen mittels KI-animierter Avatare könnte die Gebärdensprachübersetzung zur Selbstverständlichkeit werden.

In der Europäischen Union gilt: Alle Länderbehörden der 27 Mitgliedsstaaten, aber auch alle Bürger*innen Europas sollen ohne Sprachbarrieren an Diskussionen und Entscheidungen teilhaben können. Deshalb hat die EU 24 Amtssprachen, in die Parlamentssitzungen, Dokumente und audiovisuelle Medien übersetzt werden. Die Sprachbarriere, mit der gehörlose und schwer hörgeschädigte Menschen leben müssen, überwindet die EU damit jedoch noch nicht. Denn ihre Sprache ist nicht das gesprochene Wort und dessen Abbild in der Schrift. Sie sprechen eine oder mehrere Gebärdensprachen. Insgesamt dreißig länder- beziehungsweise regionalspezifische gibt es allein in der EU. Jede von ihnen ist eine eigenständige Sprache, die sich ebenso umfassend unterscheiden kann, wie zum Beispiel gesprochenes Deutsch gegenüber dem Französischen oder Polnischen. Für eine Reihe wichtiger Informationen bietet die EU bereits Übersetzungen in Gebärdensprachen an. Um Medieninhalte umfassend auch für Hörgeschädigte anzubieten, müsste der EU-Übersetzungsdienst jedoch die Anzahl der generell angebotenen Zielsprachen mehr als verdoppeln.

Erschwerend kommt hinzu, dass auch innerhalb eines Sprachraumes eine Übersetzung nicht einfach eine 1:1 Übertragung in Gesten und Mimik ist. Soll ein Text beispielsweise aus dem Deutschen in die deutsche Gebärdensprache übertragen werden, ist die Übersetzungsleistung vergleichbar mit einer Übersetzung in eine gesprochene Fremdsprache. Bisher können dies meist nur ausgebildete Gebärdensprachdolmetscher*innen leisten. Das sind hörende Menschen, die erlernt haben, eine Gebärdensprache als Fremdsprache fließend anzuwenden. Medieninhalte mit Gebärdensynchronisation sind daher nicht nur bei der EU, sondern auch generell auf TV- und Videokanälen nur selten selbstverständlich.

In Zukunft könnten KI-gestützte Übersetzungsprogramme und animierte Avatare Übersetzungen in Gebärdensprache automatisch erzeugen und so erheblich einfacher und kostengünstiger machen. Das ist zumindest das Ziel des von der Europäischen Union geförderten Projekts »Content4All«. Gemeinsam mit fünf internationalen Forschungspartnern aus Wissenschaft und Industrie entwickelte ein Team des Fraunhofer-Instituts für Nachrichtentechnik, Heinrich-Hertz-Institut, HHI die grundlegenden Methoden und Technologien dafür.

Avataren Bewegung und Ausdruck beibringen

In der Gebärdensprache sind oftmals bereits kleine Unterschiede in den Mund-, Finger-, Arm- und Körperbewegungen relevant für deren Bedeutung. Auch aus den Lippenbewegungen und der Gesichtsmimik lassen sich feine Detailinformationen herauslesen. Gängige Avatarsysteme aber blenden gerade diese wichtigen Signale für ein einwandfreies Verstehen oft aus. Sie kommunizieren eher auf einer einfachen, grundsätzlichen Ebene mit vereinfachten Gesten, denn eine adäquate Darstellung der Nuancen ist kompliziert. »Wenn solche Avatare mit Hörenden interagieren, ist ihre verhältnismäßig einfache Animation vollkommen ausreichend, sie unterstützen das Gesagte lediglich«, betont Prof. Peter Eisert, Abteilungsleiter Vision and Imaging Technologies am Fraunhofer HHI. »Bei der Übersetzung in Gebärdensprache liegen die Dinge aber anders, denn hier ist die Animation das einzige Signal, mit denen Gehörlose verstehen können. Hier mussten wir also Systeme entwickeln, die selbstständig auch mit Feinheiten in ihrer Mimik arbeiten.«

Um das zu erreichen, sei es nicht nur notwendig, virtuelle Menschen zu modellieren, deren Animationsalgorithmen es erlauben, dass sie sich bis hin zur Gesichtsmimik nahezu menschlich bewegen können. Vor allem mussten die Avatare lernen, wie sich ein mittels Gebärden sprechender Mensch ausdrückt. Im Projekt Content4All übernehmen deshalb Videoaufnahmen von Gebärdendolmetscher*innen die Rolle von »Lehrmeister*innen«. Von ihren angefertigte, detailgetreue Videoaufnahmen dienen als Input für das Training neuronaler Netze. Eisert und sein Team konnten dafür das institutseigene 3-D-Studio mit 32 hochauflösenden Kameras und einer Ausleuchtung mit 150 Lichtpanels nutzen. Mit Hilfe von Methoden des Deep Learning lernten und lernen die Systeme nun immer genauer Gesten, Mimiken und Mundbewegungen. Dank dieser Methode bestehen die Bewegungsabläufe der Avatare nun nicht mehr aus einer Aneinanderreihung zuvor abgespeicherter Einzelsequenzen. »Der Einsatz künstlicher Intelligenz ermöglicht uns, dass Avatare selbstständig umfassendere Bewegungsabläufe nachbilden und mit nahezu naturgetreuen Übergängen ausführen«, erklärt Eisert.

Diese bedeutende, neue Fähigkeit hat der Projektpartner SWISS TXT bereits für ein spezielles Anwendungsszenario genutzt: Die Tochtergesellschaft des öffentlich-rechtlichen Schweizer Fernsehens erprobte erstmals den Einsatz der Content4All- Avatare als Gebärdensprecher*innen für Nachrichtensendungen. Der Vorteil: Von den menschlichen Dolmetscher*innen selbst müssen keine aufwändigen Studioaufnahmen gemacht werden. Als Vorlage für die Animation der Avatare genügt beispielsweise eine einfache Videoaufnahme aus dem Homeoffice.

Automatisiert vom Wort zur Gebärde

Das Avatarsystem soll aber nicht nur Gebärdendolmetscher*innen nachahmen können. Sondern es soll auch eine automatisierte Übersetzung von gesprochenem Wort in Gebärdensprache leisten. Um dies zu ermöglichen, entwickelten die Projektpartner, insbesondere Wissenschaftler*innen der University of Surrey, eine spezielle Übersetzungssoftware, die Texte in Gebärdensprache überführt. Das Ergebnis sind computerlesbare, symbolische Beschreibungen der entsprechenden Aussagen in Gebärdensprache. »Diese Symbolbeschreibungen verwenden wir, um damit die Bewegungen mit einer zweidimensionalen Skelettfigur abzubilden«, so Eisert. Die Skelettfigur wiederum ist Grundlage für ein zusätzlich entwickeltes Matchingverfahren, das die Symbolbeschreibung und die KI-basierten Animationsalgorithmen miteinander verknüpft. Der Avatar wird damit in die Lage versetzt, Texte in einer naturnah ausgeführten Gebärdensprache wiederzugeben. Die öffentliche Rundfunkanstalt der Flämischen Gemeinschaft in Belgien Vlaamse Radio- en Televisieomroeporganisatie (VRT), die sich ebenfalls am Projekt beteiligt hatte, erprobte damit bereits automatisierte Übersetzungen von Nachrichteninhalten in Gebärdensprache.

Proof of Concept als Blaupause für die Praxis

Noch sind das automatisierte Übersetzungssystem und die natürlich animierten Avatare im Stadium eines Proof of Concept. Das System beherrscht weder die 24 Amtssprachen noch die 30 Gebärdensprachen der EU vollständig. »Vor allem bei den Inhalten, die damit von gesprochener Sprache in Gebärdensprache übertragen werden können, ist das System noch eingeschränkt«, betont Eisert. Grund dafür ist unter anderem der hohe Trainingsaufwand und die große Menge an Daten, die für das Anlernen der KI notwendig sind. Audio- und Videomaterial mit Synchronübersetzung in Gebärdensprache gibt es derzeit noch nicht in jedem Land und wenn, dann überwiegend im Bereich Nachrichtensendungen und dem Wetterbericht. Entsprechend hat sich Content4All auf Übersetzungen in diesen Bereichen konzentriert. Um qualitativ ausreichende Übersetzungen quer über alle Inhalte zu erreichen, müssen daher zuerst verstärkt menschliche Gebärdendolmetschern bei TV-Sendern und Internetmedien eingesetzt werden. Denn dieses Material ist die zwingende Voraussetzung dafür, um das Wissen und die Fähigkeiten der KI des Avatarsystems zu erweitern.

(stw)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Sieben + = 9
Bitte Zahl eintragen!
image description
Experte
Alle anzeigen
Prof. Dr. Peter Eisert
  • Fraunhofer-Institut für Nachrichtentechnik Heinrich-Hertz-Institut HHI
Weitere Artikel
Alle anzeigen
Digitaler Durchblick im Schilderwald
Lärm: Ein unerhörtes Politikum?
Automatisierte Wahrheitssuche
Stellenangebote
Alle anzeigen