IDEAL-VGI: Analyse und Verbesserung der Qualität und Gebrauchseignung von OpenStreetMap als Labels zur Anwendung in der Fernerkundung

Wir freuen uns, bekannt geben zu können, dass das IDEAL-VGI-Projekt von GIScience erfolgreich abgeschlossen wurde. IDEAL-VGI war ein Tandemprojekt in Zusammenarbeit mit Begüm Demir von der TU Berlin und wurde im Rahmen der VGIscience Second Phase Projects durchgeführt, die von 2020 bis 2022 liefen. VGIscience wurde von der Deutschen Forschungsgemeinschaft (DFG) als Schwerpunktprogramm gefördert. Das VGIscience SPP wurde abgeschlossen mit der Veröffentlichung des Open-Access-Buches „Volunteered Geographic Information. Interpretation, Visualization and Social Context“ am 12. Dezember 2023. Dazu hat IDEAL-VGI das Kapitel „Analyzing and Improving the Quality and Fitness for Purpose of OpenStreetMap as Labels in Remote Sensing Applications“ beigetragen.

Das IDEAL-VGI-Team überprüfte Qualität und Gebrauchseignung von OpenStreetMap (OSM) als Labels im Bereich der Fernerkundung (RS – engl. Remote Sensing). Die Verwendung von Volunteered Geographic Information (VGI – dt.freiwillg erhobene geografische Informationen) wie OSM ist eine produktive Methode, um geografische Datenbanken durch die Arbeit von Freiwilligen anzureichern. Benutzer*innengenerierte Inhalte (UGC – engl. User Generated Content), wie z. B. VGI, sind eine vielversprechende Quelle für Datenlabels, die in immer größeren Mengen benötigt werden. Insbesondere im Bereich Machine Learning ist die Qualität der Datenlabels entscheident, wo sie zum Beispiel zum Modelltraining eingesetzt werden. Aktuell können die meisten modernen Modelle zur Klassifizierung von Landnutzung und Bodenbedeckung die eingegebenen Labels nicht inhaltlich hinterfragen. Das Ausbleiben einer maßgeblichen Beteiligung am Datenerhebungsprozess kann daher in der RS-Community zu Zweifeln an der Datenqualität führen. Es wird davon ausgegangen, dass verrauschte Labels, d.h. redundante, unvollständige, heterogene oder falsche Daten, zu einer schlechten Modellleistung und falschen Modellausgaben führen.

Zur Bewertung der OSM-Landnutzungs- und Landbedeckungsinformationen gab es zwei Ansätze: (1) Bewertung der Eignung von OSM für Stichproben in Bezug auf intrinsische und semi-intrinsische Datenqualitätsindikatoren auf der Ebene einzelner OSM-Objekte und (2) Bewertung von OSM-abgeleiteten Multilabels auf der Ebene von Fernerkundungsflächen (1,22 x 1,22 km) in Kombination mit Deep-Learning-Ansätzen.

Der erste Ansatz hat gezeigt, dass die hohe Variabilität innerhalb der Indikatorverteilungen das Hauptproblem bei der Vorhersage der Datenqualität einzelner Landnutzungsobjekte darstellt. Die intrinsischen Indikatoren (wie z.B. die Erfahrung der Kartierenden, die Anzahl der Kartierenden pro Region und die Anzahl der an einem Objekt vorgenommenen Bearbeitungen) wurden mit einem neu entwickelten Tool namens OSM Element Vectorisation abgeleitet, das auf der OpenStreetMap History DataBase (OSHDB) basiert. Die Autor*Innen konnten zum Beispiel zeigen, dass die Elementgröße ein starker Qualitätsindikator ist, der jedoch in Kombination mit anderen Indikatoren interpretiert werden muss. Zum Beispiel neigen die Daten zu Wiesen in Mitteleuropa, die eine bestimmte Größe überschreiten, stark dazu, von geringerer Qualität zu sein, was bedeutet, dass ein großer Teil der bedeckten Fläche in Wirklichkeit keine Wiese ist.

Wichtigkeit der Merkmale im Verhältnis zur Datenqualität. Die Wichtigkeit wurde auf Grundlage eines Quantil Random Forest für 1000 zufällig ausgewählte OSM-Objekte abgeleitet. Die Merkmale sind sortiert nach dem prozentualen Anstieg des quadratischen Mittelwertes der Fehler, welcher sich durch Wegfallen des Merkmals ergeben würde. Zusätzlich wird die Knotenreinheit als zweiter Indikator für die Wichtigkeit des Merkmals angegeben. Um die Interpretation zu erleichtern, wird der zweite Indikator zusammen mit seiner Position im Verhältnis zum Medianwert der Knotenreinheit über alle ausgewählten Merkmale angezeigt.

 

Beim zweiten Ansatz wurde auf RS-Daten mit OSM-Labels ein Deep-Learning-Verfahren angewendet, das von der TU Berlin entwickelt wurde und unanfällig gegenüber Datenrauschen ist. Zunächst konnte nachgewiesen werden, dass OSM tatsächlich in der Lage war, qualitativ hochwertige Multi-Labels im Untersuchungsgebiet zu erstellen. Multi-Labels sind mehrere LULC-Klassen-Tags, die einem bestimmten Gebiet zugewiesen werden und das Vorhandensein einer bestimmten Klasse in diesem Gebiet anzeigen. Diese aus OSM abgeleiteten Kennzeichnungen wurden dann als Trainingsdaten für ein maschinelles Lernmodell verwendet. Diese Methode war in der Lage, korrekte Multi-Labels zu identifizieren, selbst in Situationen, in denen ein erhebliches Maß an künstlichem Rauschen zu den ursprünglichen Trainingsdaten hinzugefügt wurde.
In einem weiteren Schritt wurde die Methode auch eingesetzt, um Bereiche zu identifizieren, in denen die eingegebenen Labels wahrscheinlich falsch waren. Auf diese Weise ist es möglich, der OSM-Community Feedback zu geben, da problematische Bereiche gekennzeichnet werden können.

Weitere Ergebnisse des IDEAL-VGI-Projekts sind auf der Projektwebsite oder in unseren früheren Blogposts zu finden. Insbesondere empfehlen wir das Einführungsvideo, das im Rahmen des Projekts erstellt wurde und das einen guten Überblick über das Thema UGC-Qualitätsanalysen gibt.
Außerdem gibt es hier noch die Ergebnisse der anderen im Rahmen des SPP durchgeführten Projekte zu sehen.

Das Team des IDEAL-VGI-Projekts möchte sich bei der DFG, dem SPP und insbesondere bei Dirk Burghardt für die großartige Möglichkeit bedanken, dieses relevante und interessante Projekt durchführen und all diese Ergebnisse erschaffen zu können.

 

Referenzen:

Schott,M., Zell, A., Lautenbach, S., Sumbul, G., Schultz, M., Zipf, A., Demir, B. (2024). Analyzing and Improving the Quality and Fitness for Purpose of OpenStreetMap as Labels in Remote Sensing Applications. In: Burghardt, D., Demidova, E., Keim, D.A. (eds) Volunteered Geographic Information. Springer, Cham. https://doi.org/10.1007/978-3-031-35374-1_2 , p. 21-42

Comments are closed.