Zeitzeugen sind für die Geschichtsforschung eine unverzichtbare Informationsquelle, um prägende Ereignisse der Vergangenheit und die gesellschaftliche Entwicklung besser verstehen und bewerten zu können. An Aussagen mangelt es in der Regel kaum: Die Magazine in Universitäten und anderen Forschungseinrichtungen sind gut gefüllt. Ton- und Filmaufnahmen mit Interviews gibt es zuhauf. Viele davon wurden bereits in den 1960er und 1970er Jahren aufgenommen. Nun sollen sie aus den Archiven geholt und für Geistes- und Sozialwissenschaftler komfortabel analysierbar gemacht werden.

Gut drei Jahre ist es her, dass »News-Stream« in den Pilotbetrieb ging. Das Analysesystem für Audiospuren kann die Sprache aus Tonband oder Filmdokumenten wie etwa aus Nachrichtensendungen weitgehend fehlerlos erfassen und annotieren. Genutzt wird das System deshalb immer häufiger. Unter anderem von Dokumentarinnen und Dokumentaren oder Journalistinnen und Journalisten. News-Stream macht es ihnen verhältnismäßig leicht, in Archiven der Rundfunkanstalten Aussagen und Berichte zu einzelnen Ereignissen sozusagen auf Knopfdruck und punktgenau zu finden. Grundlage für die zuverlässige Zuarbeit des Recherchetools sind Algorithmen und Verfahren, die von den Forscherinnen und Forschern des Fraunhofer-Instituts für Intelligente Analyse- und Informationssysteme IAIS entwickelt wurden. Nun soll das Potenzial von News-Stream genutzt werden, um User auch bei der Recherche in einem anderen Wissensbereich zu unterstützen. Im vom Bundesministerium für Bildung und Forschung geförderten Projekt »KA³ – Kölner Zentrum Analyse und Archivierung von AV-Daten« will das Team des Fraunhofer IAIS in Zusammenarbeit mit dem Archiv »Deutsches Gedächtnis« an der FernUniversität in Hagen ein System erschaffen, mit dem nun nicht nur journalistische, sondern auch geistes- und sozialwissenschaftliche Tondokumente (vergleichsweise) komfortabel durchforstet und analysiert werden können. Zudem soll ein fach- und standortübergreifendes Repositorium, also ein Archiv, aufgebaut werden, dass Nutzern einen digitalisierten und verschlagworteten Zugriff auf gesprochene Inhalte wie etwa Interviews oder ausgewählte Vorlesungen ermöglicht.

Auch Bewährtes kann scheitern

Ob nun ein Tagesschau-Stream oder ein Zeitzeugeninterview zu transkribieren ist, sollte vom technischen Ablauf her keinen großen Unterschied machen. »Umso ernüchternder waren für uns die Ergebnisse der ersten Tests«, erzählt Michael Gref von Fraunhofer IAIS. Denn die im journalistischen Bereich fast fehlerfrei arbeitenden Audiomining-Algorithmen lieferten bei der Transkription der Zeitzeugeninterviews plötzlich Fehlerraten von durchschnittlich 60 Prozent. »So angewendet, wäre unser Verfahren für die Arbeit der Geschichts- und Sozialforscher also schlicht unbrauchbar gewesen«, resümiert Gref.

Erste Gründe für dieses »Scheitern« lieferte ein grundlegender Vergleich zwischen den Ausgangsmedien, mit denen die Broadcast-Rechercheure auf der einen Seite und die Forscherteams in den Geistes- und Sozialwissenschaften auf der anderen Seite typischerweise arbeiten. Die Unterschiede sind gravierend. Sowohl in Hinblick auf die Qualität der Video- und Audiodateien als auch auf die Klarheit der Sprache und das genutzte Vokabular: Nachrichten und Reportagen aus Rundfunk und Fernsehen sind mit professionellem Equipment erstellt. Für Zeitzeugeninterviews verwenden die Forscherinnen und Forscher dagegen häufig auch technisch einfache Geräte. Viele der Aufnahmen entstanden vor Jahrzehnten mit Tonbandgerät, Kassetten- oder mobilem Videorekorder. Meist stammten die Apparate aus dem Bereich der Heimelektronik und boten nur amateurhafte Qualitäten. Entsprechend hoch ist der Anteil an Störsignalen wie Bandrauschen, Gerätegeräuschen, Hall oder Klangverzerrungen. Nach Jahrzehnten im Archiv beeinträchtigt der Alterungsprozess der Magnetbänder die Tonqualität zudem erheblich. Hinzu kommen die Unterschiede in Sprache und Sprechweise. Während die Sprecherinnen und Sprecher in den Broadcast-Medien weitgehend in Schriftsprache, mit einfachen Satzkonstruktionen und einer zuhöreroptimalen Geschwindigkeit sprechen, ist die Sprache in den Zeitzeugeninterviews äußerst vielfältig. Die Bandbreite reicht von ungewöhnlicher Wortwahl und Satzbildung bis zu verschiedensten Dialektausprägungen.

Schritt für Schritt zum Audiomining-Erfolg

Lassen sich die Zeitzeugeninterviews dennoch automatisiert und mit deutlich geringeren Fehlerraten analysieren? Gref und sein Team stellten sich dieser Herausforderung. Ihr erster Ansatz war es, die Audioqualität der Dateien vor dem Prozess der Spracherkennung zu verbessern – zum Beispiel mit Softwarefiltern und anderen Tools, die Nebengeräusche aus dem Signal entfernen, Verzerrungen glätten oder die Sprechgeschwindigkeit anpassen. Allerdings stellte sich auch dieser Ansatz letztendlich als Sackgasse heraus. »Die Qualitätsmängel der einzelnen Interviewdateien sind zu vielfältig und individuell. Mit Hilfe eines standardisierten Bearbeitungsprozesses ist es kaum möglich, eine signifikante Verbesserung zu erreichen«, sagt Gref. Deshalb sei es notwendig, die einzelnen Tools zur Signalverbesserung für jede Datei individuell anzupassen. Entsprechend aufwendig und wenig wirtschaftlich wäre also auch dieser Ansatz.

Als Nächstes versuchten die Forscherinnen und Forscher ihre Modelle und Algorithmen der Spracherkennung so zu erweitern und zu trainieren, dass sie neben der deutlich artikulierten Schriftsprache auch eine eher schlampige Sprache verstehen, bei der Gesprächspartnerinnen und Gesprächspartner so sprechen, wie ihnen »der Schnabel gewachsen ist«. Eine zweistufige Vorgehensweise brachte dabei schließlich die erhofften Erfolge: Für den ersten Schritt haben die Wissenschaftlerinnen und Wissenschaftler Audiodateien mit Broadcast-Qualität ausgewählt, die ihr Analysesystem fehlerfrei erkennen kann. Mit Hilfe einer Reihe von Verfahren und Tools verschlechtern und verfälschen sie deren Qualität nun soweit, bis die Aufnahmen ähnliche Mängelmuster aufwiesen, wie typische Zeitzeugeninterviews. »Neben der Idealversion der Sprachdatei hatten wir nun auch mehrere mangelhafte Signale mit demselben Inhalt und konnten somit die Erkennungsvarianz unserer Modelle gezielt erweitern«, erklärt Gref. In einem zweiten Schritt ließ sein Team dann verschiedene Zeitzeugeninterviews von den erweiterten Analysemodellen automatisch interpretieren. Die Ergebnisse korrigierten sie danach noch mittels manueller Transkription. Die lernfähigen Algorithmen ihrer Analysesoftware nutzen diese menschliche Erkennungsleistung, um die automatisierte Erfassung auch anderer Dateien weiter zu verfeinern.

Inzwischen konnten sie so die Fehlerrate ihres Audio-Mining-Systems bei der Anwendung für Zeitzeugeninterviews von anfangs 60 auf durchschnittlich etwa 25 Prozent senken. Während bei wenigen, besonders schwierig zu analysierenden Dateien, wie etwa Interviews in starkem Dialekt, die Algorithmen immer noch schnell an ihre Grenzen stoßen, sind die Erkennungsfehler in den meisten Fällen sogar erheblich seltener als der Durchschnittswert nahelegt. »Der geistes- und sozialwissenschaftlichen Forschung können wir so nun heute bereits einen deutlichen Mehrwert bieten«, betont Gref. Die automatisierte Spracherkennung ermöglicht den Forscherteams – zumindest weitestgehend – das gezielte Durchsuchen der digitalisierten Zeitzeugeninterviews. Und soweit manuelle Korrekturen und Ergänzungen notwendig sind, unterstützt sie das Analysesystem von Fraunhofer IAIS mit zusätzlichen Features: zum Beispiel durch ein übersichtliches Interface zur Bearbeitung von Transkriptionsdokumenten und Metadaten oder durch automatisiertes Einfügen der Satzzeichen in den Texten.

(stw)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Vier + = 7
Bitte Zahl eintragen!
image description
Experte
Alle anzeigen
Michael Gref
  • Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
Weitere Artikel
Alle anzeigen
Gelesen und verstanden
Wissen finden
Kuratieren für Mensch und Maschine
Stellenangebote
Alle anzeigen