Laut der Digitalstudie der Postbank nutzte bereits jede*r zweite von uns im vergangenen Jahr digitale Sprachassistenten. Doch trotz der wachsenden Beliebtheit bleiben derartige Assistenzdienste bei Behörden und Ämtern meist außen vor – obwohl das Angebot gerade für sehbehinderte und mobilitätseingeschränkte Menschen wichtig wäre. Grund dafür ist vor allem der Datenschutz. Fraunhofer-Forscher*innen haben nun Konzepte und Werkzeuge entwickelt, die eine KI-basierte Sprachassistenz mit den hohen Sicherheitsanforderungen der öffentlichen Verwaltungen in Einklang bringen.

»Wohnzimmerlicht an.« »Wie wird das Wetter morgen?« »Rufe das Handy von Herrn Meier an.«

Dank Alexa, Siri, Google Assistant und Co. gehorchen Geräte und Anwendungen aufs Wort. Und das nicht nur auf definierte Befehle. Was die Sprachassistenten der Internet- und Elektronikkonzerne so erfolgreich macht, ist ihr Einflüsterer - eine gut trainierte und sich stetig weiterentwickelnde KI. Mit jedem Sprachdialog, den Nutzer*innen mit ihnen führen, wird die Erkennungsleistung ein weiteres Stück breiter und präziser. Denn die Systembetreiber nutzen die anfallenden Dialogdaten nicht nur, um den Nutzer*innen das gewünschte Feedback zu liefern, sondern sammeln sie in der Cloud, um sie als zusätzliche Trainingseinheiten für die Sprach-KI zu verwenden.

Damit ist aber auch klar, dass der Einsatz der populären Sprachassistenzlösungen für Behörden und Ämter ein Tabu sein muss. »Bei einer Antragsstellung sind sensible, personenbezogene Daten im Spiel, die niemals in einer schwer kontrollierbaren Drittanbieter-Cloudumgebung landen dürfen«, betont Thilo Ernst vom Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS. Dabei brächte eine Sprachassistenz gerade für digitale Bürgerdienste einen erheblichen Mehrwert. »Im Dialog könnten KI-basierte Assistenzlösungen Bürger*innen zum Beispiel dabei helfen, Online-Formulare am Bildschirm besser zu verstehen und richtig auszufüllen. Sogar komplett sprachgesteuerte Antragstellungen wären dann möglich und damit auch ein barrierearmer Zugang zu den Diensten«, ergänzt Lutz Nentwig vom Fraunhofer FOKUS.

Aus diesem Grund entwickeln Forscher*innen vom Fraunhofer FOKUS gemeinsam mit Audio-Spezialist*innen des Fraunhofer-Instituts für Digitale Medientechnologie IDMT – HSA in Oldenburg einen KI-Sprachassistenten, der für den Einsatz bei Ämtern und Behörden tauglich ist und sich nachweislich an die dort einzuhaltenden strengen Datenschutzvorgaben hält.

Mit Logik durch den Verwaltungsprozess

Den entscheidenden Unterschied zu gängigen Sprachassistenzlösungen macht die vom Fraunhofer FOKUS entwickelte »Constraint Handling Rules-Engine GoCHR«. Dahinter verbirgt sich ein logisches Modell, das Bedingungen und Regeln festlegt und miteinander in Beziehung setzt. Dabei wird auch erfasst, welche Kernthemen in einem Dialog zwischen Dienstnutzer*innen und digitalem Bürgerservice üblicherweise relevant sind. »Wir nutzen den Umstand, dass Verwaltungsprozesse wie etwa das Beantragen von Elterngeld nach einem klar festgelegten Schema erfolgen«, sagt Ernst. »Oft wurden bereits Online-Services implementiert, die diesen Workflow durch Web-Formulare abbilden. Solche bestehenden Lösungen können wir nahtlos mit Sprachassistenz-Funktionalitäten erweitern.«

Die möglichen Fragen und Antworten im Dialogprozess bewegen sich thematisch also in einem üblicherweise eindeutig definierbaren Bereich. »Wie die digitale Sprachassistenz auf Angaben und Fragen der Nutzer*innen reagiert, um ihn oder sie im Antragsprozess zielgerichtet zum nächsten erforderlichen Schritt zu führen, lässt sich daher sehr präzise in dem logischen Modell abbilden«, ergänzt Nentwig. Als Input reicht es dabei, dass der Sprachassistent den Kern einer Angabe oder Frage erkennt und den Sinngehalt bestimmten Schlüsselwörtern zuordnen kann. So muss klar sein, ob der oder die Bürger*in beispielsweise eine bestimmte Verwaltungsleistung neu beantragen oder nur eine Änderung der Kontoverbindung eintragen lassen will.

KI-Einsatz in kontrollierter Umgebung

Der Ansatz strebt also keine schrankenlose Vielfalt des Wortschatzes an, für die bei einem statistischen KI-Verfahren möglichst universell über alle möglichen Themenbereiche hinweg trainiert werden müsste. Vielmehr wird ein deterministisches Logikmodell mit einer vorgegebenen Auswahl an Themen und Begriffen verwendet. Trotzdem ist es nicht notwendig, dass die Nutzer*innen starr immer genau dieselben Schlüsselbegriffe nennen – da das Regelsystem eine substanzielle Breite unterschiedlicher Ausdrucksmöglichkeiten abdeckt, können sie mit dem Sprachassistenzsystem recht normal und natürlich kommunizieren.
Das als »Kernlogik« verwendete Regelsystem ist in seinen Inhalten und Verknüpfungen vollständig in der Kontrolle der menschlichen Expert*innen, die es betreuen. Somit entfallen einerseits die Risiken der Intransparenz oder Datenverzerrung, wie sie bei Nutzung statistischer KI-Verfahren unter Umständen gegebenen sind. Außerdem benötigt dieser Lösungsansatz keine Daten für Trainingszwecke und vermeidet damit Datenschutzprobleme bei der Erhebung von Daten aus dem laufenden Betrieb.

Das Entwickler*innenteam hat die GoCHR Rules-Engine mit zwei weiteren KI-basierten Subsystemen in einem hybriden Lösungsansatz aus regelbasierten und statistischen KI-Verfahren gekoppelt. Eines ist zuständig für die Spracherkennung und eines für das Generieren der Antworten der Sprachassistenz. Für die Spracherkennung nutzt das System die vom Fraunhofer IDMT entwickelte Speech-to-Text-Technologie, die mit einem Deep-Learning-Verfahren arbeitet und eine gute Unempfindlichkeit gegen Störgeräusche aufweist. Zur Verbesserung der Erkennungsleistung trainierte das Team aus Oldenburg diese KI mit einer eigens erstellten Sammlung von Fachbegriffen, die vor allem im Rahmen von Verwaltungsprozessen genutzt werden. »Geplant ist zudem, das Training der KI auszuweiten: Und zwar auf regional typische oder gefärbte Ausdrücke, wie sie die Menschen in der Region verwenden, in der der Sprachassistent eingesetzt wird«, ergänzt Nentwig.

Für die Spracherzeugung entwickelten die Forscher*innen am Fraunhofer FOKUS eine spezielle Text-to-Speech-Komponente mit einer eigenständigen Deep-Learning-basierten KI. »Für das Training dieses Modells haben wir Audiodaten von Hörbüchern genutzt«, erzählt Ernst.
Entscheidend aber ist vor allem der gesicherte Datenschutz: Alle Komponenten des Sprachassistenten können in einer gesicherten Datenumgebung eines Verwaltungsnetzwerks installiert und betrieben werden. Dadurch stellt das Team sicher, dass eine Übertragung sensibler Daten in eine öffentliche Cloud oder andere Drittsysteme nachweisbar vermieden wird. Behörden und Ämter können die vorgegebenen Datenschutzanforderungen in vollem Umfang erfüllen.

Vom Demonstrator zum Praxiseinsatz

Eine erste Test-Version ihres Sprachassistenten hatten die Forscher*innen im Rahmen des von der Fraunhofer-Gesellschaft geförderten Projekts »Speech Assistance for Citizen Services – S4CS« für das Beantragen von Elterngeld entwickelt. Eine Weiterentwicklung des Assistenzsystems wird jetzt im Auftrag der Senatskanzlei Hamburg auf den Piloteinsatz in der Praxis vorbereitet. Aktuell integriert das Team die digitale Sprachassistenz in den Online-Dienst »Kinderleicht zum Kindergeld«. Dank des automatischen Service werden Eltern in der Hansestadt in naher Zukunft die Möglichkeit haben, ihre Angaben zur Geburt ihres Kindes im Online-Dienst »Kinderleicht zum Kindergeld« auch via Sprachsteuerung abzuwickeln. Vom Eintrag des Namens eines Neugeboren. bis zum Antrag auf Kindergeld, das System ermöglicht ihnen dabei jederzeit zwischen der sprachgesteuerten Bedienung des Dienstes und der Bildschirmeingabe via Touch oder Tastatur zu wechseln.

(ted)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Eins + = 10
Bitte Zahl eintragen!
image description
Experte
Alle anzeigen
Lutz Nentwig
  • Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS
Thilo Ernst
  • Fraunhofer-Institut für Offene Kommunikationssysteme FOKUS
Weitere Artikel
Alle anzeigen
Glasfaserplanung vom Schreibtisch aus
Flexible Rooms, Smart Spaces: die neuen Rathäuser
Offene Sprachgrenzen für Europas öffentliche Daten
Stellenangebote
Alle anzeigen