Wie kann eine automatische Spracherkennung nicht nur gesprochene, sondern auch gesungene Texte verarbeiten? Mit welchen Schritten kann das Vertrauen in elektronische Triage-Systeme erhöht werden und welchen Mehrwert bieten multibiometrische Verfahren für personenbezogene Identifikationen? Mit den Ergebnissen zu diesen Fragestellungen konnten Dr. Anna-Marie Kruspe vom Fraunhofer IDMT, Dr. Erion Elmasllari vom Fraunhofer FIT sowie Dr. Naser Damer vom Fraunhofer IGD die Jury des diesjährigen ICT-Awards überzeugen. Im Interview verrieten sie mehr über ihre Arbeiten, Ambitionen und Ziele.

Dr. Anna Kruspe Bild: Fraunhofer IDMT

Frau Dr. Kruspe, beim diesjährigen ICT-Dissertation-Award wurde Ihre Arbeit zum Thema »Application of Automatic Speech Recognition Technologies to Singing« ausgezeichnet. Wie sind Sie auf dieses spezielle Thema gekommen?

In der Arbeit geht es darum, Methoden aus der automatischen Spracherkennung auf Gesang anzuwenden. Die Idee hierfür hat sich über die Zeit entwickelt und wurde auch sehr stark von meinen beruflichen Stationen beeinflusst. Mein Studienpraktikum habe ich damals bei Toshiba in der Forschungsabteilung für Spracherkennung und Sprachsynthese absolviert, hier hatte ich also erste Berührungspunkte mit dem Thema automatische Spracherkennung. Dann bin ich an das Fraunhofer-Institut für Digitale Medientechnologie IDMT gekommen und habe dort im Bereich Music Information Retrieval gearbeitet und meine Diplomarbeit geschrieben. Im folgenden Jahr habe ich mir Gedanken über das Thema der Dissertation gemacht. Mir fiel auf, dass an vielen Stellen der beiden Forschungsfelder – automatische Spracherkennung und Music Information Retrieval – sehr ähnliche Analysemethoden genutzt wurden, aber es kaum Anknüpfungspunkte gab. Vor allem, weil über den eigenen Forschungsbereich hinweg wenig miteinander interagiert wurde. Im Bereich Music Information Retrieval geht es um Möglichkeiten der Melodietranskription und die Genreklassifikation, aber fast niemand beschäftigte sich mit dem gesungenen Text. Das war für mich etwas überraschend, da Spracherkennung ja schon länger ein großes Forschungsthema ist. Aber es gibt natürlich einige Unterschiede zwischen gesprochenen und gesungenen Texten, weshalb herkömmliche Spracherkennungssysteme für eine Gesangsanalyse nicht herhalten können. Gesang weist an vielen Stellen eine ganz andere Charakteristik auf, die Tonhöhen variieren stärker, die Länge der Laute kann im Gesang schwanken, etc. Für eine solche Analyse braucht es also ein System, das diesen Schwankungen gegenüber robust ist. Das fand ich sehr spannend und aufgrund meiner Vorerfahrung auf dem Forschungsgebiet Spracherkennung habe ich mich dann für dieses Thema entschieden.

Welche Methoden haben Sie im Verlauf Ihrer Arbeit für die Analyse von Gesang genutzt und auf welche Schwierigkeiten sind Sie dabei wohlmöglich auch gestoßen?

Als erstes habe ich natürlich auf Sprache trainierte Systeme getestet und analysiert, inwiefern sie sich auf Gesang anwenden lassen. Wie bereits erwähnt, war die Antwort auf diese Frage: eher schlecht. Dann ging es darum herauszufinden, was sich beim Gesang verändert, welche Methoden es gibt und wie man diese entsprechend anpassen könnte.
Letztendlich waren zwei Wege vielversprechend. Zum einen bestand die Möglichkeit den Modellaufbau, also die Methodik selbst, zu verändern. Zum anderen konnten die Datensätze angepasst werden. Modelle werden ja anhand von bestehenden Daten trainiert, man kann also versuchen, sie auch auf andere Datensätze zu schulen. Beide Varianten habe ich ausprobiert, der Fokus lag allerdings deutlich auf den Datensätzen. Dabei gab es aber natürlich auch ein paar Probleme. Für Sprache gibt es sehr viele Datensätze, auf deren Basis man Modelle trainieren kann, für den Gesang gibt es keine Daten und es ist auch sehr aufwendig diese zu erzeugen. Mein größtes Problem war also, dass es die Daten, die ich brauchte, gar nicht gab. Ich habe dann versucht vorhandene Sprachdatensätze künstlich anzupassen, habe die Tonhöhen und die Lautlängen verändert, um sie dem Gesang ähnlicher zu machen. Dann habe ich einen Datensatz entdeckt, der aus Aufnahmen einer Karaoke-App besteht – ohne Hintergrundmusik – ein großartiger Fund für mich, denn nun konnte ich mir einen eigenen Datensatz erzeugen. Es gab aber noch ein weiteres Problem. Ein Schwerpunktthema meiner Arbeit bildete der Bereich des maschinellen Lernens. Ein Thema, welches in den vergangenen Jahren viel Aufmerksamkeit erhielt und auch entsprechend weiterentwickelt wurde. Am Anfang meiner Promotion habe ich Modelle des maschinellen Lernens genutzt, die nach zwei Jahren nicht mehr aktuell waren, weil sich auf dem Gebiet unglaublich viel getan hat. Es war natürlich erst einmal eine Herausforderung, die neuen Methoden in die Arbeit zu integrieren.

Für welche Bereiche hat Ihre Arbeit eine besonders große Relevanz? Wo ist die Analyse von Gesangstexten besonders hilfreich?

In der Arbeit geht es um verschiedene Themen. Eines davon ist die Frage: Wie kann ich herausfinden, in welcher Sprache ein Musikstück gesungen wird? Ein anderer Fokus lag auf der Wiederauffindbarkeit bestimmter Worte in Musikstücken. Die Kombination macht die Gesangsanalyse für sämtliche Richtungen des Musikbereichs interessant: Für Musikverlage, den Karaokebereich, fürs Radio. Besonders spannend ist natürlich auch die Verknüpfung mit dem Fernsehen. Vor allem für Werbefilme wird immer wieder Hintergrundmusik gesucht, die eine bestimmte Botschaft transportiert und diese entsprechend auch im Liedtext aufgreift.

Aber auch für Privatanwender ist eine Gesangserkennung sicherlich interessant. Am Ende meiner Dissertation habe ich eine kleine Demo programmiert, die ähnlich wie Melodie-Erkennungs-Apps funktionierte: Der Nutzer konnte einen Ausschnitt aus einem Lied vorsingen und das Programm hat anhand des kurzen Textes erkannt, um welches Lied es sich handelte. Hierbei war es aber nicht mehr wichtig, dass der Nutzer die Töne und die Melodie traf, die Analyse erfolgte ausschließlich über den Text. Das hob die Demo von bereits existierenden Soundanalysemöglichkeiten ab.

Dr. Erion Elmasllari Bild: Fraunhofer FIT

Herr Elmasllari, Ihre Arbeit beschäftigt sich mit dem Design sogenannter Triage-Systeme, also Unterstützung für notfallmedizinische Verfahren, die eine bessere Einschätzung der Behandlungsdringlichkeit ermöglichen sollen. Wie genau sind Sie auf dieses Thema gekommen und was interessiert Sie an diesem Bereich besonders?

Nach meinem Bachelorabschluss in Informatik und BWL hatte ich ein Erlebnis, das mich bis heute prägt: Während meiner ersten Anstellung als Software Engineer beobachtete ich eines Tages, wie ein Mitarbeiter in einer Finanzbehörde aus Verzweiflung zu weinen begann, weil das von uns entwickelte IT-System so unverständlich war. Da wurde mir bewusst, dass es in meinem Studium häufig nur um die die Korrektheit von Algorithmen ging, nie aber um Usability. Das veranlasste mich dazu, einen Master mit dem Schwerpunkt Human-Computer-Interaction aufzunehmen. Fragen der Nutzerfreundlichkeit müssen selbstverständlich in jeglichen Anwendungsgebieten berücksichtigt werden, doch in einem entscheidenden Punkt hebt sich der notfallmedizinische Bereich hiervon ab: Wenn die Usability eines Systems mangelhaft ist, weinen Menschen nicht nur, sondern können im schlimmsten Fall sterben.
Neben meinen Vorerfahrungen im Bereich Usability kam ich zu dieser eigentlichen Thematik durch meine Arbeit am Fraunhofer-Institut für Angewandte Informationstechnik FIT. Gerade die Kombination aus Elektronik und Software Engineering im Kontext von Notfallmedizin faszinierte mich derart, dass ich mich dafür stark machte, um in diesem Bereich arbeiten und dann promovieren zu können.

Woher rührt das häufige Misstrauen gegenüber bestehenden Triage-Systemen und mit welcher Methode sind Sie vorgegangen, um diese zu verbessern?

Die Systeme, die man bisher erforscht und den Einsatzkräften angeboten hat, fokussierten sich zu sehr auf die technische Seite – ohne zu verstehen: Was brauchen sie wirklich? Die Einführung einer neuen Technik verändert schließlich Prozesse. Diese zu durchbrechen, sollte daher gut begründet sein. Denn im Rettungswesen hängt das Überleben eines Patienten von dem reibungslosen Ablauf solcher Prozess ab. Wenn die Einsatzkräfte in ihrem beruflichem wie privaten Alltag jedoch erleben, wie fehleranfällig, kompliziert und auch unfreundlich Software heutzutage ist, finde ich deren Misstrauen gegenüber elektronischen Triage-Systemen nur allzu verständlich. Um mir hierüber ein klares Bild machen zu können, habe ich während meiner Dissertation eng mit verschiedenen Rettungsstellen zusammengearbeitet und diese bei vielen ihrer Einsätze begleitet. Die Rettungskräfte selber waren während des gesamten Prozess ein Teil meines Teams und haben Lösungen zusammen mit uns gestaltet. Diese Methode nennt sich Participatory Design. Das war ein wirkliches Novum auf diesem Gebiet. Ausgehend von dieser Methode habe ich dementsprechend nicht nur bestehende Systeme bewerten können, sondern auch ein eigenes Triage-System entwickelt. Die Kontextanalyse, das Ableiten von Anforderung sowie die Implementierung von Prototypen spielen selbstverständlich eine wichtige Rolle, im Zentrum standen jedoch realistische Tests mit den Rettungskräften. Es ist ein iterativer Prozess, den ich allen Software-Entwickeln nur empfehlen kann: Gerade der Austausch mit den Endnutzern öffnet den Blick auf oftmals übersehene Schwierigkeiten.

Wie wird Sie dieses Thema in Zukunft begleiten?

Die Beschäftigung mit diesem Thema hat mir so viel Freude bereitet und das Feedback ist so positiv, dass ich mich mit einem eigenen Unternehmen weiter damit beschäftigen werde. An der Nachfrage von Triage-Systeme habe ich keine Zweifel: Nach der letzten Testphase wurde ich bereits von mehreren Rettungskräften gefragt, wann der Verkauf denn endlich starte. Prinzipiell wäre es sogar denkbar, dass das System auch in anderen Ländern durchaus auf eine breite Akzeptanz stoßen könnte, da sämtliche »Worst-Case Scenarios« bei seiner Entwicklung berücksichtigt wurden. Dies müsste natürlich noch erprobt werden. Als Wissenschaftler möchte ich meine Dissertation einem breiteren Kreis von Personen zugänglich machen und diese hierzu in einer leichteren, weniger wissenschaftlichen Sprache als Buch veröffentlichen, so inspiriere ich vielleicht mehr Menschen dazu, sich mit Usability in kritischen Kontexten zu beschäftigen.

Dr. Naser Damer Bild: Fraunhofer IGD

Herr Damer, für Ihre Dissertation »Application-driven Advances in Multi-biometric Fusion« wurden Sie mit dem dritten Platz des diesjährigen ICT Awards ausgezeichnet. Wie kamen Sie zu dieser Idee und was fasziniert Sie an dem Thema Biometrie?

Biometrie ist ein sehr vielfältiges Forschungsgebiet, auf dem sich derzeit enorme Fortschritte beobachten lassen. Viele verbinden Biometrie zunächst mit Fingerabdrücken und kriminalpolizeilichen Ermittlungen. Das mag zwar eine gewichtige Rolle spielen, überdeckt jedoch zwei entscheidende Tatsachen: Zum einen können noch zahlreiche weitere Eigenschaften biometrisch erfasst werden. Neben der Gesichtsbild- und Iriserkennung fallen hierunter auch verhaltensspezifische Charakteristika, z.B. die Art und Weise, wie Sie eine Tastatur oder ein Tablet bedienen.
Zum anderen ergibt sich aus dieser Vielzahl von Merkmalen auch eine Reihe von ganz unterschiedlichen Anwendungsfällen, die mithilfe von Biometrie erleichtert werden könnten. Denken Sie z.B. an jegliche Situationen, die eine Identifizierung der Personalie notwendig machen: Vom Check-In am Flughafen, Auskünften bei einer Bank bis zum Umgang mit sensiblen Daten am Arbeitsplatz. Sich mit Biometrie zu beschäftigen, bedeutet demnach an sehr anwendungsorientierten Fragestellungen zu arbeiten, was mir große Freude bereitet. In dieser Hinsicht war das Fraunhofer-Institut für Graphische Datenverarbeitung IGD ein Glücksfall für mich: Als ich meine Arbeit dort aufnahm, war ich in ein Projekt mit dem Bundeskriminalamt involviert, das sich mit der biometrischen Identifizierung von Verdächtigen beschäftigte. Ausgehend von diesen praktischen Herausforderungen, entwickelte sich die Idee meiner Promotion: Hierbei untersuchte ich, unter welchen Vorrausetzungen biometrische Systeme sicherer und präziser arbeiten können. Ein vielversprechender Ansatz ist die sogenannte multibiometrische Fusion, bei der mehrere biometrische Merkmale kombiniert werden.

Worin besteht der Vorteil von multibiometrischer Fusion gegenüber singulärer Biometrie?

Bei Biometrie geht es darum, aus personenbezogenen Daten, z.B. ein Fingerabdruck, bestimmte Muster zu extrahieren und diese mit vorhandenen Referenzdaten zu vergleichen. Multibiometrische Fusion erhöht die Genauigkeit der Messeergebnisse, indem auf verschiedene Informationsquellen zurückgegriffen wird. Ein entscheidender Faktor ist hierbei die Resilienz. Wie alle IT-Infrastrukturen laufen auch biometrische Systeme Gefahr überlistet zu werden. Dank multibiometrischer Verfahren kann die Resilienz gegenüber solchen Versuchen erhöht werden. In meiner Arbeit bewertete ich den Einsatz und die Kombination solcher multibiometrischen Verfahren, insbesondere unter Einbezug von Gesichtsbilderkennung. Eine wichtige Erkenntnis war hierbei, dass ein Optimum an zu berücksichtigen Faktoren nicht verallgemeinert werden kann. Das Verhältnis zwischen den aufgewendeten Mitteln und ihrer Praktikabilität muss dabei stets, je nach spezifischer Situation, austariert werden.

Werfen wir einen Blick in die Zukunft: Wo sehen Sie weiterhin großes Potenzial für die Biometrie-Forschung und wie werden Sie darin involviert sein?

Wie bereits angesprochen, beschäftigte sich meine Arbeit stark mit der Gesichtsbilderkennung – diese wird uns zukünftig sicherlich in vielen Situationen noch häufiger begegnen. Viele Experten sehen darin geradezu die Zukunft der Biometrie. Das ist nicht überraschend: Auch in sozialen Interaktionen identifizieren wir uns als Individuen einer Gesellschaft sehr oft über unser Gesicht. Neben der breiten Akzeptanz solcher Identifikationen spricht aber auch deren Genauigkeit für dessen steigende Bedeutung, die sich zunehmend an die von Fingerabdrücken oder Irisdetektionen annähert. Auch in Fragen der Evaluation und Generierung von multibiometrischen Daten sehe ich noch Handlungsbedarf. Ebenso birgt der Aufbau sicherer Abwehrsysteme für biometrische Verfahren noch großes Potenzial. Das Fraunhofer IGD beteiligt sich beispielsweise an dem neuen »Nationalen Forschungszentrum für angewandte Cybersicherheit ATHENE«. Hierbei arbeite ich gerade mit Freude daran, ein Team für den Bereich Biometrie aufzustellen.

(cst, mkl)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Drei + = 7
Bitte Zahl eintragen!
image description
Interviewpartner
Alle anzeigen
Alexander Nouak
  • Fraunhofer-Verbund IUK-Technologie
Weitere Artikel
Alle anzeigen
Denken und Forschen in Systemen
Auf Sicherheit gebaut
Vorreiter durch Kooperation und Spitzentechnologien
Stellenangebote
Alle anzeigen