Tuning fürs Training

App-Unterstützung für Sprechtherapien bei hochgradigen Hörschädigungen

16. März 2022

Hörschädigungen können dazu führen, dass das natürliche Sprechen eingeschränkt ist. Betroffenen fallen die korrekte Aussprache und Betonung häufig schwer. Sprachtherapien können die Sprechfähigkeit zwar verbessern. Das Training dafür muss aber meist besonders intensiv und regelmäßig sein, sodass Therapiesitzungen allein kaum zu einem idealen Ergebnis führen. Eine KI-gesteuerte App, die das Gesagte automatisch und qualifiziert analysiert und bewertet, bietet Hörgeschädigten zusätzliche Trainingsmöglichkeiten neben der Sprachtherapie – jederzeit und überall.

»Sprech- und Spracheinschränkungen können sich vor allem dann entwickeln, wenn Kinder noch vor oder während des Ausbildens ihrer Sprechfähigkeit ein Hörgerät oder eine Hörprothese wie ein Cochlea-Implantat benötigen. Wenn hier nicht frühzeitig eine sprachtherapeutische Begleitung einsetzt, können die Einschränkungen bis in das Erwachsenenalter bestehen«, sagt Laura Tuschen vom Fraunhofer-Institut für Digitale Medientechnologien IDMT in Oldenburg. Dank der Hörunterstützung lernen Betroffene zwar, die einzelnen Sprachlaute und daraus gebildete Worte zu formulieren. Häufig haben sie aber Schwierigkeiten, die damit verbundenen lautmalerischen Spezifika wie die tonale Färbung der Laute und die Betonung oder Dehnung von Silben richtig auszusprechen oder die Melodie von Sätzen richtig wiederzugeben. Bei einem Aussagesatz beispielsweise werde die Stimme am Ende gesenkt (»Ich lese diesen Artikel.«), während sie am Schluss eines Fragesatzes gehoben werde (»Liest du einen Artikel?«). Eine Folge dieser sprachlichen Beeinträchtigung ist, dass angesprochene Personen das Gesagte nur teilweise oder nur schwer verstehen. Oder – noch schlimmer – Personen mit vermeintlich falscher Aussprache, Betonung und Sprachmelodie nicht mehr auf Augenhöhe begegnen.

Intensives Sprechtraining

Ein intensives Sprechtraining mit Sprachtherapeutinnen und Logopädinnen ist unerlässlich, um die teils sehr individuellen Einschränkungen bei der Verständigung zu mildern und zu überwinden. Das Training mit Expertinnen vor Ort ist allerdings nur der Anfang, das regelmäßige und intensive Üben im häuslichen Umfeld und außerhalb der Therapie ist den Patientinnen dann meist selbst überlassen. Selbst, wenn Verwandte und Ehrenamtliche die betroffene Person unterstützen, ist dies eine besondere Herausforderung. Denn die immer wieder notwendige Kontrolle, ob die Übungen zur Bildung und Aussprache von Lauten, Wörtern und Sätzen korrekt ausgeführt werden, erfordert Fachkenntnis und Erfahrung und vor allem eine direkte Rückmeldung. Unter Umständen besteht sogar die Gefahr, dass beim Training Fehler gemacht und eingeübt werden, sodass die Übungen den Patient*innen sogar nachhaltig schaden können.

App zur Unterstützung von Hör- und Sprechtherapien

Im vom Bundesministerium für Bildung und Forschung (BMBF) geförderten Projekt »THERESIAH« entwickeln Wissenschaftler*innen des Fraunhofer IDMT deshalb gemeinsam mit Forschungsteams der Hochschule für Gesundheit Bochum und der Universitätsklinik für Hals-Nasen-Ohren-Heilkunde am Evangelischen Krankenhaus Oldenburg sowie dem Hörzentrum Oldenburg eine App zur Unterstützung von Hör- und Sprechtherapien bei hochgradig hörgeschädigten Patient*innen. Am Smartphone oder einem Tablet sollen Betroffene damit individuell die für sie ausgewählte Übungen zur Aussprache von Lauten, Wörtern und Sätzen trainieren können. Die App gibt einem Patienten oder einer Patientin vor, was sie aussprechen sollen, hört sich an, wie sie es aussprechen und gibt eine fachlich fundierte Rückmeldung. Die Auswertung wird mit Hilfe von digitaler Sprachanalyse und Spracherkennung umgesetzt. Ist die Aussprache des »sch« im Wort »Waschen« zum Beispiel noch verbesserungsbedürftig, spielt die App ein kurzes Erklärvideo ab. Es zeigt die Mundpartie eines oder einer Vorsprechenden, der oder die illustriert, wie der Zischlaut physisch richtig gebildet wird. Um zu kontrollieren, ob der oder die Übende die Lautbildung durch passende Bewegungen der Gesichtsmuskulatur unterstützt, kann sich der oder die Betroffene auch selbst filmen und sich am Bildschirm wie in einem Spiegel beobachten.

Qualitatives Bewerten von Sprechdetails

»Um den Übenden nachhaltig zu unterstützen und deutlich heraushörbare Verbesserungen bei seiner Aussprache zu erreichen, ist die Bewertung der jeweiligen Aussprache grundlegend. Unser Programm muss deshalb in der Lage sein, Gesprochenes mit sehr hoher Genauigkeit und mit der notwendigen fachlichen Expertise zu analysieren«, erläutert Tuschen. Die technischen Anforderungen an die Algorithmen der Sprachanalysen und der Modelle für die Klassifizierung und Bewertung seien allein deshalb immens. Das zugrunde liegende KI-System muss speziell dafür trainiert werden, genau »hinzuhören« und das idealtypische Klangbild gesprochener Worte und Phoneme so genau zu kennen, dass es mögliche Fehler in der Aussprache der oder des Übenden auch auf kleinste Nuancen hin analysieren kann.

Für THERESIAH konnten die Forscherinnen dabei auf bereits gewonnene Erfahrungswerte und Systementwicklungen aufbauen. So haben sie beispielsweise auf die Analysemethoden und KI-Modelle eines Trainingssystems für Sprechtherapien aufbauen können, das sie im Projekt »ISi-Speech« entwickelt haben. Mit dem System trainieren unter anderem Parkinson-Patientinnen, bei denen das Sprechen beeinträchtigt ist.

»Sowohl ISi-Speech als auch THERESIAH ermöglicht das zielgerichtete Üben der Aussprache und Verständlichkeit – sowohl von Silben und Wörtern als auch von ganzen Sätzen, bei denen es auf Betonung und Satzmelodie ankommt«, erklärt Tuschen. Für das aktuelle Projekt komme es allerdings auf eine noch genauere Analyse der Aussprache und Artikulation an. THERESIAH sei deshalb so programmiert, dass nicht nur Silben, sondern auch noch kleinere Spracheinheiten, die Laute, erfasst und untersucht werden. Damit werde es bei der App beziehungsweise der von der App genutzten KI möglich, sprachliche Differenzen bei der Aussprache von Lauten in Wörtern wie »Tanne« oder »Kanne« und »Wand« oder »Wind« zu erkennen.

Sprechanalyse auf Lautebene

Damit die KI derartige Nuancen »heraushören« und zuordnen kann, müsste sie eigentlich durch (idealerweise) Millionen von Beispielen intensiv trainiert werden, denn die Varianz der Sprechbeeinträchtigungen ist bei den Betroffenen ausgesprochen hoch. Eine derart umfangreiche Datenbank aber gibt es bislang nicht. Und Beispieldaten, die aus den Therapiesitzungen in Praxen und Kliniken gewonnen werden könnten, unterliegen dem Datenschutz. Alle Übungseinheiten und Analyseergebnisse werden nur lokal bei dem oder der Patientin gespeichert.

Um den Spracherkenner dennoch möglichst umfassend zu trainieren, musste das Projektteam einen Umweg gehen: »Unter Einholung eines Ethikantrags konnten wir im Rahmen des Projektes Sprechbeispiele aufnehmen und für die Entwicklungsarbeiten nutzen und so auch die Aspekte des Datenschutzes berücksichtigen«, erklärt Tuschen. Die Anzahl sei zwar sehr begrenzt, dafür aber waren die Datensätze nicht nur sehr umfangreich und detailliert, sondern deren Besonderheiten bereits durch medizinische Fachkräfte der Projektpartner kategorisiert und bewertet. Durch diese hochwertige Vorarbeit sowie einer engen Zusammenarbeit mit den Spezialistinnen für Sprachtherapien bei der Erstellung und Verfeinerung der KI-Modelle sei es gelungen, das KI-System Schritt für Schritt dafür zu ertüchtigen, auch Fehlbildungen einzelner Laute sehr exakt abzugrenzen und zu bewerten – ohne wie sonst üblich auf Trainingsmasse setzen zu müssen.

Im Rahmen des Projekts loteten die Forscherinnen zudem ergänzende Möglichkeiten aus, um zusätzliche Erkenntnisse für die Anpassung und Verfeinerung der Modelle und Algorithmen für die Sprachanalyse zu gewinnen. Die Verwendung von Daten eines Elektromyogramms (EMG) beispielsweise habe sich in ersten Experimenten vielversprechend gezeigt. Mithilfe der Elektromyografie wird die elektrische Muskelaktivität gemessen. Der oder die Patientin bringt dafür zwei bis drei kleine Klebeelektroden im Bereich des Mundes an. Während des Sprechtrainings können die Forscher*innen so zusätzliche Daten zur Anatomie während der Aussprache gewinnen. »Derartige Ergänzungen können der richtige Weg sein, um in diesem und weiterführenden Projekten die Möglichkeiten der automatisierten Sprachanalyse zur Unterstützung von Sprechtrainings weiter zu verbessern«, sagt Tuschen.

Erfolg und Grenzen des Systems

Die THERESIAH-App hat mittlerweile Demonstrations-Status erreicht und ist versuchsweise im Einsatz. »Das Feedback der Anwenderinnen und ihrer Therapeutinnen bestärkt uns in der Erwartung, dass sich die App zu einem medizinisch ausgereiften Produkt weiterentwickeln lässt«, resümiert Tuschen. Selbst das (für Maschinen sehr komplexe) Unterscheiden von lautähnlichen Phonemen und deren Verwendung in unterschiedlichen Silben- und Worteinbettungen gelinge in der Regel zuverlässig. »Die große Varianz bei Details der individuellen Sprechbeeinträchtigungen setzt dem System allerdings noch Grenzen. Wie gut die automatisierte Aussprachebeurteilung ausfällt, hängt deshalb immer noch stark von der individuellen Sprecheinschränkung ab«, meint Tuschen. Deshalb sei es auch sinnvoll, künftig zusätzliche Analysemethoden zu nutzen.

(stw)

Expert*in

Laura Tuschen

Fraunhofer-Institut für Digitale Medientechnologien IDMT, Institutsteils Hör-, Sprach- und Audiotechnologie HSA Oldenburg

Zum Partnerinstitut