Vom Pixel zur Entscheidung: Wie FOCAL Klimadaten für Städte und Wälder nutzbar macht

Klimamodelle sind riesig, abstrakt und oft zu grob für die Fragen vor Ort: Was bedeutet der Klimawandel für meinen Wald, meine Stadt, meine Region? Im Horizon-Projekt FOCAL entwickeln Forschende unter Leitung des Fraunhofer IGD KI-gestützte Workflows, um globale Klima-, Umwelt- und Satellitendaten herunterzubrechen und mit lokalen Informationen zu verknüpfen. So entstehen praxistaugliche Webanwendungen, die Stadtplanung und Forstwirtschaft bei der Bewertung von Risiken und der Planung von Anpassungsmaßnahmen unterstützen. Im Interview mit Dr. Eva Klien vom Fraunhofer-Institut für Graphische Datenverarbeitung IGD setzten wir uns mit diesen Themen auseinander.

Was ist FOCAL und welche übergeordneten Ziele verfolgt das Projekt?

FOCAL ist ein europäisches Forschungsprojekt im Rahmprogramm Horizon Europe. Es geht darum Klimadaten verfügbar und anwendbar zu machen. Wir sind 14 Partner, das Projektvolumen liegt bei rund acht Millionen Euro, und wir, das Fraunhofer-Institut für Graphische Datenverarbeitung IGD, fungieren als Koordinator. Das Ziel ist zum einen, intelligente und weitgehend automatisierte Verfahren zu entwickeln, um komplexe Klimadaten auszuwerten und interpretieren zu können. Klimadaten sind sehr große Datenmengen, riesige Datenströme. Wir wollen sie nicht nur interpretieren, sondern auch zusammenhängende Erdbeobachtungsdaten und Geodaten analysieren: Eine sehr komplexe Datenlage und damit auch eine Herausforderung, für alle Berechnungen. Diese Daten sollen so ausgewertet und bereitgestellt werden, dass sie für lokale Stakeholder zugänglich sind. Aktuell gibt es Pilotbereiche aus der Stadtplanung und der Forstwirtschaft.

FOCAL möchte hochkomplexe Klima-, Umwelt- und Erdbeobachtungsdaten für lokale Akteurinnen und Akteure nutzbar machen. Warum ist genau diese Übersetzung von global zu lokal so entscheidend?

Der Klimawandel wird global gemessen, aber lokal erlebt. Auf lokaler Ebene müssen konkrete Maßnahmen erwartet, geplant, und umgesetzt werden. Deswegen muss zwingend eine Übersetzung von globalen Modellen in lokale Entscheidungsgrundlagen stattfinden. Oft sind die bisherigen Modelle einfach zu grob aufgelöst: Die Rastergröße, in der die Klimamodelle gerechnet werden, hilft im Hinblick auf einzelne Kommunen und Städte nicht wirklich, um an konkreten lokalen Gegebenheiten Entscheidungen zu treffen. Das heißt: Diese Modelle müssen weiter herunterskaliert werden und sie mit lokalen Daten und Szenarien koppeln, sodass tatsächlich Vorhersagen für einzelne Regionen verlässlich werden. Hinzu kommen starke räumliche Variationen. Selbst zwei Nachbarstädte können sich stark unterscheiden: Die eine liegt vielleicht in einer hügeligen Landschaft, die andere in einer Ebene, die eine an einem See, die andere in einem Tal. Das sind lokale, klimarelevante Gegebenheiten, die großen Einfluss darauf haben, wie sich Klimabedingungen konkret auswirken. Daher muss das, was es global in grober Auflösung gibt, auf die lokale Ebene übersetzt werden, damit es dort sinnvoll in Entscheidungsprozesse eingebunden werden kann.

Welche technologische und wissenschaftliche Rolle übernimmt das Fraunhofer IGD innerhalb von FOCAL? Und können Sie ein klassisches Anwendungsbeispiel aus der Forstwirtschaft nennen – insbesondere im Zusammenhang mit der KI-basierten Waldstörungstypen- bzw. Waldtypenklassifikation?

Auf wissenschaftlicher Ebene ist unser Ziel vor allem, diese intelligenten, automatisierten Verfahren für die Auswertung und Interpretation der komplexen Datenströme zu entwickeln. Das ist ein Kern, auf den wir uns als Fraunhofer IGD konzentrieren. Zum einen wollen wir technologischen Support für ein wissenschaftliches Workflow-Management in der Datenauswertung bereitstellen. Dafür haben wir mit »STEEP« eine Technologie entwickelt, die dort eingesetzt werden kann und die wir im Projekt auch weiterentwickeln. Wir schauen uns an, wie wir diese Prozesse und das Workflow-Management verbessern können, insbesondere wenn es darum geht, KI-Prozesse, also KI-Training und Optimierung, zu unterstützen. Da geht es um fortgeschrittene Datentechnologien, prozessorientierte Diagnoseverfahren, verbesserte Modellparametrisierung und -optimierung. Hyperparametertuning ist zum Beispiel immer ein Thema bei KI-Modellen. Das wollen wir möglichst effizient unterstützen und insgesamt die Effizienz dieser Prozesse deutlich verbessern und skalieren.  

Zum anderen geht es um die Entwicklung und das Trainieren von KI-Modellen. Wir schauen also nicht nur auf die Infrastruktur des Systems, sondern trainieren auch selbst Modelle – meistens auf Basis bestehender Modelle – und evaluieren, was bereits vorhanden ist und wo wir es erweitern können. In unserem Fall geht es dabei immer um Fernerkundungsdaten: Satellitenbilder, Luftbilder, Punktwolkendaten. Wir arbeiten mit Vision-basierten Ansätzen, also Computer-Vision, nicht mit Sprachmodellen. Wir nutzen diese Verfahren, um die Daten semantisch zu segmentieren oder die Objekterkennung der Daten zu betreiben, etwa für die verschiedenen Waldtypen oder bei der Waldartenerkennung – oder um bestimmte Faktoren zum Gesundheitszustand bzw. allgemeinen Zustand von Wäldern abzuleiten.

Der große Vorteil der Fernerkundungsdaten ist, dass man damit flächendeckende Analysen machen kann. Klassische Waldinventuren sind immer einzelne Stichproben und betreffen kleine Bereiche. Wenn es aber um große, zusammenhängende Gebiete geht, hat man einen riesigen Vorteil, wenn man über Fernerkundungsdaten geht, weil diese flächendeckend vorliegen und man Vergleiche anstellen oder Ergebnisse auf andere Bereiche übertragen kann. Ein weiterer Vorteil ist die zeitliche Auflösung: Ein Satellit fliegt fast täglich über ein Gebiet, während Waldinventuren nur alle paar Jahre stattfinden.

Sie haben im Projekt auf die Workflow-Management-Lösung »STEEP« gesetzt. Können Sie kurz erklären, was STEEP ist?

 »STEEP« wird bei uns am Fraunhofer IGD als Open-Source-Projekt entwickelt. Es ist ein wissenschaftliches Workflow-Management-System, das in der Cloud eingesetzt wird. Über ein solches System können wir die Ausführung von Diensten, also Microservices, steuern und das Ganze ressourcen- und kosteneffizient umsetzen. Man kann sich das so vorstellen: Eine Anwenderin oder ein Anwender definiert einen Workflow mit mehreren Schritten, zum Beispiel eine Datenprozessierungspipeline zur Aufbereitung von Daten für das Training eines KI-Modells. Dieser Workflow wird dann mit den einzelnen Verarbeitungsschritten an »STEEP« übergeben.  »STEEP« kümmert sich dann darum, dass in der Cloud virtuelle Maschinen hochgefahren werden, die diese Anforderungen bedienen und die Verarbeitungsschritte abarbeiten. Wo immer sich Schritte parallel ausführen lassen, werden sie parallelisiert. Dadurch ist man sowohl schnell als auch effizient, weil die Maschine nach Abschluss der Berechnung direkt wieder heruntergefahren werden kann. Die Ressource wird freigegeben, und man bezahlt nicht weiter dafür. So werden Effizienz, Kostenreduktion und die notwendige Skalierbarkeit dieser Berechnungen möglich. Generell ist das die klassische Rolle eines Workflow-Management-Systems. Neben »STEEP« gibt es viele weitere Anbieter. In unserem Fall haben wir aber den Vorteil, dass wir am System selbst entwickeln und anforderungsbezogene Verbesserungen direkt einbauen können. Wir haben zum Beispiel eine erweiterte Fehlerbehandlung und Zyklen in den Berechnungen implementiert: Ein Workflow bricht nicht sofort ab, nur weil zwischendurch ein Fehler auftritt, sondern kann Fehler frühzeitig abfangen. Und wir adaptieren »STEEP« sehr stark an den Anwendungsfall: »Training von KI-Modellen für sehr große Datenmengen«.

Was war die zentrale Motivation im Projekt FOCAL, auf »STEEP« als Workflow-Management-Lösung zu setzen – insbesondere für das Training KI-basierter Modelle zur Waldtypenklassifikation? Und wofür müssen Waldtypen überhaupt klassifiziert werden?

Die Motivation war, dass wir es im Projekt mit KI-Prozessen auf sehr großen und komplexen Datenmengen zu tun haben, nicht ausschließlich für die Waldtypenklassifikation, sondern für viele unterschiedliche Fragestellungen bei verschiedenen Partnern. Diese Prozesse bestehen aus unterschiedlichen Elementen, die immer wieder ausgeführt werden müssen: Datenaufbereitung, Trainingsprozesse, Modellvalidierung und so weiter. All das sind Prozesse, die auf großen Datensätzen laufen und skalierbar sein müssen. Das ist der große Vorteil von Workflow-Management-Systemen: Sie können skalieren und verschiedene Elemente flexibel aneinanderreihen. Da wir »STEEP« selbst entwickelt haben, kennen wir das System sehr gut und wissen, wo wir für die projektspezifischen Anforderungen ansetzen können. Deswegen haben wir uns entschieden, »STEEP« im Projekt einzusetzen und weiterzuentwickeln.

Zur fachlichen Frage, warum Waldtypen überhaupt klassifiziert werden müssen:
Das ergibt sich aus unseren forstwissenschaftlichen Pilotprojekten. Waldtypen zu bestimmen, ist an sich sind gar nicht das Entscheidende, sondern die Zusammenhänge, die wir damit analysieren können. Zum einen geht es darum, in die Vergangenheit zu schauen und diese Daten in einen Kontext zu setzen. Wie haben sich verschiedene Waldtypen oder Waldgesellschaften unter unterschiedlichen Klimabedingungen entwickelt und darauf reagiert? Dann kommt eine großflächige Auswertung der aktuellen Lage hinzu, aus der eine Prognose entwickelt werden kann: Wie wird sich das Klima in den nächsten 20 bis 50 Jahren verändern? Und wie werden sich diese Waldgesellschaften oder Waldtypen und der aktuelle Zustand der Wälder unter diesen Bedingungen entwickeln? Insbesondere interessiert uns die Resilienz der Wälder in den nächsten Jahren. Wir haben da ein sehr breites Spektrum an Szenarien. Es gibt nicht nur ein Klimaszenario, sondern typischerweise zehn bis fünfzehn berechnete Szenarien. Das bedeutet eine große Bandbreite an möglichen Entwicklungen und viele Kriterien und Faktoren, die eine Rolle spielen. Um das wirklich datenbasiert und faktenbasiert bewerten zu können, muss man sehr genau wissen, wie der Wald aktuell aussieht: Wie ist der Zustand des Waldes? Und das möglichst kleinräumig und feingranular. Dazu kommen die dynamischen Aspekte mit den vielen Szenarien. Auf dieser Basis kann man dann die Frage stellen: Wo liegt der »Turning Point«? Welche Maßnahmen kann man mit den Mitteln, die es gibt – finanzielle Ressourcen, Personal etc. – überhaupt sinnvoll ergreifen, um bestimmte Szenarien abzufedern?

Sie nutzen für das Projekt Satellitendaten. Welche konkreten Herausforderungen bringt die Verarbeitung von Satellitendaten und Trainingsdaten für neuronale Netze mit sich – und wie hat »STEEP« geholfen, diese Komplexität zu beherrschen?

Gerade bei Satellitendaten gibt es eine sehr hohe zeitliche Auflösung: Das gleiche Gebiet wird immer wieder aufgenommen, aber unter sehr unterschiedlichen Bedingungen. Das betrifft einerseits kleinräumige Effekte wie Wetterlage und Wolkenbedeckung, andererseits die verschiedenen Jahreszeiten. Wenn ich an den Wald-Use-Case denke, gibt es mal belaubte, mal unbelaubte Bäume, unterschiedliche Vegetationsphasen. Das sieht im Bild natürlich sehr verschieden aus. Dazu kommen regionale Unterschiede. Je nachdem, mit welchen Trainingsdaten die Modelle trainiert sind, ist möglicherweise nicht alles abgedeckt, was in anderen Regionen vorkommt. Bestimmte Muster können über- oder unterrepräsentiert sein. Da muss man sehr viel parametrisieren und feinjustieren, bis man ein Modell hat, das wirklich flächendeckend eingesetzt werden kann. 

Ein weiteres Thema sind die Trainingsdaten selbst. Für das Training braucht man immer Paare aus Eingabedaten und Zielinformationen, also Bilder, in denen bereits annotiert ist, was dort zu sehen ist. Umfang und Qualität dieser Trainingsdaten haben sehr großen Einfluss auf das Ergebnis. Im Projekt schauen wir uns zum Beispiel an: Wie gehen wir mit wenigen Trainingsdaten um oder mit Trainingsdaten begrenzter Qualität? Hier kommt »STEEP« ins Spiel: Über das Workflow-Management können wir Trainingsprozesse strukturieren und automatisieren und auch Human-in-the-Loop-Prozesse ermöglichen. Das heißt, Fachleute können im Trainingsprozess immer wieder einsteigen, Ergebnisse monitoren und mit ihrem Expertenwissen Korrekturen oder Ergänzungen vornehmen. Das hilft, die Komplexität zu beherrschen und die Modelle gezielt zu verbessern.

Welche Rolle spielt die Kombination aus Cloud Computing, KI und Workflow-Management für die Übertragbarkeit der Ergebnisse auf andere Regionen und Anwendungsfälle innerhalb von FOCAL?

Übertragbarkeit bedeutet hier, dass wir Methoden und Modelle immer wieder an neue Regionen und Anwendungsfälle anpassen müssen. Das erfordert zusätzliche Trainingsdaten und oft auch erneute Trainings- und Anpassungsprozesse. Dafür brauchen wir genau die Faktoren, die ich vorhin genannt habe: Die Skalierung, die erst durch die Verbindung zur Cloud möglich ist, die Parallelisierung, die Effizienz, und die KI, weil wir sonst gar nicht die Möglichkeit hätten, diese riesigen Datenmengen in dieser Größenordnung auszuwerten. Nur in dieser Kombination lassen sich die vielen Varianten, Regionen und Szenarien in vertretbarer Zeit durchrechnen und die Modelle auf andere Kontexte übertragen.

Was brauchen Kommunen und Forstverwaltungen, um solche datengetriebenen Werkzeuge langfristig nutzen zu können? Und wie stellen Sie sicher, dass die Ergebnisse aus FOCAL tatsächlich bei den Anwenderinnen und Anwendern ankommen?

Das, was wir im Rahmen von FOCAL aufbauen, ist zum einen eine Plattform, die eher wissenschaftlich-technisch ist und für die Entwicklung von Methoden und Modulen dient, also für die Auswertung der Daten und den Einsatz von KI. Was die Nutzer – also zum Beispiel Kommunen oder Forstämter – am Ende bekommen sind Webapplikationen, die auf ihre Anforderungen zugeschnitten sind und bestimmte Fragestellungen beantworten. Darin werden die unterschiedlichen Module eingesetzt, die wir mit Hilfe dieser Cloud-Plattform entwickelt haben. Es ist ausdrücklich nicht so gedacht, dass jede Kommune eine eigene KI, Cloud-Computing und HPC-Infrastruktur aufbauen muss. Das wäre weder sinnvoll noch realistisch, gerade weil die Ressourcen in Kommunen begrenzt sind. Im Hintergrund muss eine Plattform laufen, damit das Ganze genutzt werden kann. Sinnvoll ist es, wenn man sich in größeren Verbünden zusammenschließt und gemeinsam eine solche Plattform betreibt oder beauftragt, auf der Modelle angepasst, Berechnungen durchgeführt und Module entwickelt werden, die man dann in den eigenen Anwendungen nutzen kann.

Unser Fokus liegt dabei nicht nur auf der Community und Nutzbarkeit, sondern auch klar auf den Pilot- und Stakeholder-Fokus. Zum einen gibt es Pilotpartner, die die Perspektive der Anwender direkt repräsentieren: etwa die Stadt Konstanz im Bereich der Stadtplanung und ein tschechisches Forstmanagement-Institut im Bereich der Forstwirtschaft. Zum anderen veranstalten wir im Rahmen des Projekts immer wieder Stakeholder-Workshops, in denen wir die Stakeholder von Anfang an einbinden. Stichwort Co-Design: Sie definieren die Anforderungen mit, haben die Möglichkeit, entstehende Anwendungen zu testen und zu evaluieren und geben uns Feedback. Außerdem gehen wir regelmäßig auf Veranstaltungen, auf denen sich vor allem diese Ansprechpartner*innen treffen. Nicht nur auf wissenschaftliche Konferenzen, sondern zum Beispiel auf Veranstaltungen rund um »Digital Twins« für Städte oder forstspezifische Fachveranstaltungen. Dort stellen wir das Projekt bewusst aus Anwendersicht vor und nicht nur aus einer technisch-wissenschaftlichen Perspektive. So versuchen wir, den Transfer schon im Projektverlauf mitzudenken, damit die Ergebnisse später auch tatsächlich genutzt werden.

Haben Sie bestimmte Wünsche oder eine Prognose, wohin sich FOCAL bzw. ähnliche Projekte in Zukunft entwickeln sollten – insbesondere im Bereich Datenverarbeitung und KI?

Erstrebenswert sind für mich allem diese drei Dinge: Erstens: der Cluster-Gedanke des Projekts. Es ist ein sehr interdisziplinäres Projekt, in dem wir verschiedenste Bereiche zusammenbringen, Expertinnen und Experten aus dem HPC- und Cloud-Computing-Bereich, KI-Expert*innen, Fachleute aus Forstwissenschaften und Stadtplanung, dazu Interoperabilitäts- und Datenspezialisten sowie Klimamodellierer. Wir investieren viel Aufwand, damit sich daraus eine interaktive Community bildet. Ich fände es wichtig, dass diese Community auch nach dem Projekt besteht. Gerade in dieser Art von Projekten ist es entscheidend, die unterschiedlichen Disziplinen langfristig gemeinsam an einen Tisch zu bringen. Zweitens: Wir möchten die technischen Lösungen und Tools, die im Projekt entstehen, auf Plattformen bereitstellen, auf denen sie tatsächlich verfügbar und nutzbar sind, also nicht nur als Prototyp im Projektkontext, sondern als reale Angebote für Anwenderinnen und Anwender. Und drittens: Es würde mich sehr freuen, wenn nicht nur wir am Fraunhofer IGD, sondern auch unsere Forschungspartner eine gute wissenschaftliche Sichtbarkeit für das bekommen, was wir hier voranbringen. Wenn diese drei Punkte zusammenkommen – eine lebendige Community, nutzbare Plattformen und sichtbare wissenschaftliche Ergebnisse – dann wird FOCAL auch über die Projektlaufzeit hinaus einen nachhaltigen Beitrag leisten.

(lge)


Foto von Dr. Eva Klien

Dr. Eva Klien