Mit Hilfe des Natural Language Processing (NLP) können Maschinen Textdokumente analysieren. Dafür werden Erkenntnisse der Linguistik mit Methoden der künstlichen Intelligenz verbunden. In der Abteilung »Cognitive Security Technologies« des Fraunhofer AISEC nutzen Forscher NLP, um über die semantische Struktur verschiedener Datenschutzerklärungen automatisiert auf die Vollständigkeit und Rechtssicherheit dieser Erklärungen rückschließen zu können. Im Interview erklärt Projektleiter Nicolas Müller die Vorgehensweise.

Hallo Herr Müller, auch rund eineinhalb Jahre nach dem Start der EU-Datenschutzgrundverordnung (DSGVO) gibt es aus Wirtschaft, Politik und Verbänden immer noch Kritik an dem Regelungspaket. Die Verordnung dient zwar der Vereinheitlichung europäischer Datenschutzstandards, ist aber schwer umzusetzen.

Die Richtlinie wird als kompliziert und schwer verständlich wahrgenommen. Für Webseitenbetreiber beispielsweise, die sich nach der DSGVO richten müssen, ist die Umsetzung meist mit großem Aufwand verbunden. Gerade in kleinen und mittelständischen Unternehmen ist das Know-how hierfür oft noch nicht vorhanden.

Trotzdem ist es ungewöhnlich, dass sich Ihr Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC im Rahmen eines Forschungsprojekts mit der DSGVO auseinandersetzt.

Es wäre ungewöhnlich, wenn sich unser Team aus der Abteilung »Cognitive Security-Technologies« mit den juristischen Aspekten der Verordnung beschäftigen würde. Uns geht es aber zunächst um etwas Anderes. Wir wollen eine Methode entwickeln, die letztlich auch komplizierte juristische Texte versteht und mit der wir ermitteln können, ob zum Beispiel die Vorgaben der DSGVO in Texten auf Webseiten eingehalten werden. Denn auch Compliance ist ein Thema, mit dem wir uns als IT-Sicherheits-Institut beschäftigen.

Dafür erforschen und nutzen Sie eine Methode des Natural Language Processing – NLP.

Mit Hilfe von NLP lassen sich Texte automatisiert analysieren. Dafür nutzen wir unter anderem Künstliche Intelligenz, weil sie herkömmlichen Methoden überlegen ist.

Das heißt, die Maschine versteht die Texte und kann sie damit auch auf inhaltliche Korrektheit gemäß DSGVO überprüfen.

Das ist unser Fernziel. Aktuell sind wir dabei, den Grad des Verständnisses graduell immer weiter auszubauen. Was wir im Moment schon leisten können, ist eine Untersuchung von Webseiten: Wir können feststellen, welche Abschnitte bestimmte Anforderungen der DSGVO erfüllen.

Allein die Datenschutzverordnung umfasst für Privacy Policies mehr als zehn verschiedene Einzelvorgaben.

Dazu gehören beispielsweise Anforderungen, um zu erklären, welche Daten erhoben und zu welchem Zweck sie verwendet werden. Mittlerweile können wir Unternehmen bei etwa der Hälfte der Vorgaben automatisiert Auskunft darüber geben, ob und welche Abschnitte ihrer Privacy Policy diese Vorgaben adressieren.

Das genügt zumindest für eine erste Einschätzung. Aber reicht dafür nicht eine klassische Suchabfrage, die eine Webseite beispielsweise nach Begriffen wie Datenerhebung und Datenverwendung durchforstet?

Wenn Sie eine Stichwortsuche nutzen wollen, sind Sie schnell mit dem Problem der False-Positives konfrontiert. Die Suche liefert also auch falsche Treffer. Denn Begriffe wie Daten oder Datenerhebung können natürlich auch in den regulären Webseitentexten vorkommen. Und die Frage ist dann: Wie unterscheiden Sie das, ohne manuellen Aufwand betreiben zu müssen und doch wieder alles nachzulesen und in einen Kontext zu stellen? Aber natürlich sind unsere Überlegungen deutlich über eine Keyword-Suche hinausgegangen. Denn Sprache hält sich oft nicht an starre Regeln, deshalb sind herkömmliche Methoden tendenziell unzuverlässiger.

Sie müssen also intelligenter suchen lassen.

Richtig. Wir setzen sogenannte Data-Driven-Methoden ein. Wir bringen einer KI anhand einer Vielzahl von konkreten Beispielen bei, was sie suchen beziehungsweise entdecken soll.

Anhand konkreter Beispiele lernt auch der Mensch besser. Eine KI aber braucht Tausende solcher Benchmarks, um adäquat trainiert zu werden.

Deshalb sind Beispiele – oder besser: Daten – für unsere Arbeit auch so wertvoll. Ihre Größe und Vielfalt ist entscheidend für einen zufriedenstellenden Lernerfolg der KI. Aber wir brauchen Datenpunkte nicht tausendfach, sondern besser hunderttausend- und millionenfach. Nur dann ist das System in der Lage, Muster so zuverlässig zu erkennen, dass wir uns auf die Ergebnisse verlassen können.

Was heißt das beim konkreten Beispiel DSGVO?

Wir haben dem Algorithmus bislang 18.000 Datenpunkte zum Datenschutz laut DSGVO vorgelegt. Und wir haben ihm klargemacht, welcher dieser Sätze das gewünschte Kriterium erfüllt oder nicht. Der Algorithmus hat damit eine erste Grundlage zur Mustererkennung.

Wie ist der Stand Ihrer Forschung aktuell?

Wir konnten bisher zeigen, wie eine Überprüfung von Texten anhand bestimmter inhaltlicher Kriterien und mit Hilfe des NLP prinzipiell funktionieren kann – unabhängig davon, ob es um die DSGVO geht oder beispielsweise um Berichte zur aktuellen Alzheimerforschung oder zu einem anderen Thema. Und wir gehen davon aus, dass KI-unterstütztes NLP im Moment der Königsweg ist, weil andere Herangehensweisen wie die schon besprochene Keyword-Suche nicht funktionieren. Was wir zudem bereits leisten können, ist eine Vorauswahl, also das Herausfiltern von Inhalten zur DSGVO, die definitiv zulässig oder definitiv unzulässig sind. Schon das kann die Arbeit der Webseitenbetreiber immens erleichtern.

Trotzdem ist ein Hauptknackpunkt das Training mit Beispieldatensätzen.

Ja, im Grunde bräuchten wir ein Team von eingearbeiteten Mitarbeiterinnen und Mitarbeitern, die nochmals zehn- oder gar hunderttausende Sätze mit entsprechender Argumentation versehen, damit die Maschine sie danach zuordnen kann. Aber da wir mit unseren Forschungen auf starke Resonanz auf Seiten der Industrie stoßen, bin ich optimistisch, dass wir die Leistungsfähigkeit des Natural Language Processing weiter ausbauen werden.

(aku)

Keine Kommentare vorhanden

Das Kommentarfeld darf nicht leer sein
Bitte einen Namen angeben
Bitte valide E-Mail-Adresse angeben
Sicherheits-Check:
Drei + = 5
Bitte Zahl eintragen!
image description
Interviewpartner
Alle anzeigen
Nicolas Müller
  • Fraunhofer-Institut für Angewandte und Integrierte Sicherheit AISEC
Weitere Artikel
Alle anzeigen
Gebärden sprechen lassen
Digitaler Durchblick im Schilderwald
Lärm: Ein unerhörtes Politikum?
Veranstaltungen
Alle anzeigen
Stellenangebote
Alle anzeigen