OEV: Quantifizieren von Unterschieden zwischen Importen (3/4)

Nach dem wir letzte Woche das OSM Element Vectorisation Tool vorgestellt haben, wollen wir nun mögliche Anwendungsfälle und spezifische Beispiele für die Nutzung und Anwendung des Tools präsentieren. Dieser zweite von drei Anwendungsfällen (siehe Anwendungfall 1) vergleicht die Daten in den Regionen Maribor, Slowenien und Ngaoundéré, Kamerun. Beide Regionen werden in OSM exzeptionell gut mit Landnutzungs- und Landbedeckungsinformationen abgedeckt. Der Grund dafür ist ein Import, der in beiden Regionen auftrat: der RABA-KGZ-Import von offiziellen Daten in Slowenien und der Import von klassifizierten Satellitenbildern in Kamerun. Zumindest nehmen wir an, dass es sich bei zweitem um einen Import handelt. Leider unterlief es nicht dem gängigen Import-Prozedere und wurde nicht dokumentiert. Bitte besuchen Sie das repository für detaillierte Informationen.

Daten

Um diesen Anwendungsfall zu reproduzieren, laden Sie erst die beiden Beispiele maribor und ngaoudere herunter und konvertieren diese in ein GeoPackages (siehe README). Ansonsten, scrollen Sie weiter. Für eine Übersicht der exakten Implementation für verschiedene Datenaspekte, beziehen Sie sich bitte auf die Dokumentation.

Figure 1: Aerial and data overview of the two regions.
Abbildung 1: Luftaufnahme und Datenübersicht der beiden Regionen.

Die beiden Datensets repräsentieren einen Snapshot der Daten am 1. Januar 2022. Wir können sehen , dass die Daten in den beiden Regionen verschieden sind; Landschaftunterschiede, die eine Südeuropäische und eine Zentralafrikanische Region aufweisen (siehe Maßstabsbalken). Aber können wir dies so quantifizieren, dass eine Maschine dies ebenfalls versteht?

Analyse

Die beiden Regionen unterscheiden sich sowohl geografisch als auch in Bezug auf die Menge der OSM-Daten erheblich. Dennoch sind die Stichproben ausreichend groß, so dass ein Vergleich sinnvoll ist:

Region

element_count

Maribor

13188

Ngaoundéré

1736

Interessanterweise enthält das größere Gebiet von Ngaoundéré im Vergleich zu Maribor weniger Objekte, obwohl es einen „vergleichbaren“ Erfassungsbereich hat. Wir erwarten also automatisch größere Elemente in diesem Gebiet. Aber schauen wir uns die Zahlen an.

Statistiken

Mit Hilfe statistischer Tests kann untersucht werden, ob sich die beiden Datensätze signifikant unterscheiden.

Objekt Größe

Mal sehen, ob die Objekte in Kamerun deutlich größer sind als die in Slowenien:

##
## Wilcoxon rank sum test with continuity correction
##
## data: raw_indicator.obj_size by region
## W = 6113175, p-value <2e-16
## alternative hypothesis: true location shift is less than 0

Es besteht ein hochsignifikanter Unterschied zwischen den beiden Regionen. Aber ist die Anwendung eins statistischen Tests hier das Richtige? Wenn wir Slowenien mit Kamerun vergleichen wollten, wäre es das, aber dann bräuchten wir eine irgendwie zufällige Stichprobe. Diese beiden Stichproben sind alles andere als zufällig. Stattdessen enthält die Stichprobe alle Elemente in willkürlichen Gebieten um Maribor und Ngaoundéré. Es handelt sich also eher um einen Vergleich zwischen diesen beiden Orten. In diesem Fall handelt es sich nicht mehr um eine Stichprobe, sondern um die Grundgesamtheit 1. Also lasst es uns anders angehen.

Visueller Vergleich

Geometrische Attribute

Zusätzlich zur Elementgröße werden wir weitere geometrische Attribute hinzufügen, um einen facettenreicheren Überblick über diesen Aspekt zu erhalten. Wir werden nämlich die Grobheit, die die mittlere Kantenlänge repräsentiert und die Komplexität, einen Indexwert, hinzufügen.

Figure 2: Comparison of normalised geometry attributes. Normalisation is relative to a global random sample of land-use and land-cover elements.
Abbildung 2: Vergleich der normalisierten Geometrieattribute. Die Normalisierung bezieht sich auf eine globale Stichprobe von Landnutzungs- und Landbedeckungselementen.

Diese Methode verlief nicht wie geplant. Wir haben nämlich die normalisierten Indikatoren verwendet, die das Tool zur Verfügung stellt. Das Problem ist, dass die Normalisierung (oder Skalierung) auf einer vordefinierten Menge von 1’000 zufälligen globalen Objekten stattfindet. Und das scheint in unserem Fall nicht gut zu passen. Was wir also sagen können, ist, dass es in Ngoundéré einige große Elemente gibt, sogar auf globaler Ebene. Werte zu haben, die unsere Elementattribute mit dem globalen OSM-Datensatz für Landnutzung und Landbedeckung in Beziehung setzen, ist zwar schön, aber wir bevorzugen lesbare Diagramme.

Wir können entweder die Daten neu skalieren oder die ursprünglichen/rohen Werte verwenden und akzeptieren, dass die y-Achse für die drei Variablen unterschiedliche Bereiche aufweist. Die Skalierung hat keine Auswirkungen auf die oben genannten statistischen Analysen, da diese mit Rängen arbeiten, die bei einer linearen Verschiebung der Daten auf eine neue Skala erhalten bleiben.

Lasst uns die Rohdaten versuchen, wir müssen nämlich unser Datenset nicht mit anderen Datensets vergleichen (noch nicht):

Figure 3: Comparison of geometrical attributes.
Abbildung 3: Vergleich der geometrischen Attribute.

OK, besser, aber immer noch nicht sehr hilfreich. Ich denke, wir müssen die Achsen anpassen und die Extremwerte ignorieren, weil einige der Objekte einfach zu groß, zu komplex oder zu grob für die Darstellung sind.

Figure 4: Boxplots of data attributes in different data regions containing imported data. Red squares signify the mean values.
Abbildung 4: Boxplots von Datenattributen in verschiedenen Datenregionen mit importierten Daten. Rote Quadrate kennzeichnen die Mittelwerte.

Endlich, großartig! Wir brauchen auch die Zahlen für eine fundierte Interpretation:

name

median_Maribor

mean_Maribor

median_Ngaoundéré

mean_Ngaoundéré

coarseness

12.621

14.860

43.569

56.887

complexity

0.045

0.105

0.002

0.079

obj_size

0.002

0.010

0.011

0.554

Bei der geometrischen Auswertung zeigt sich, dass die (wohlgemerkt: meist importierten) Polygone in Ngaoundéré im Allgemeinen größer, weniger detailliert gezeichnet und wahrscheinlich deshalb weniger komplex sind. Obwohl beide Regionen von kleinräumiger Landwirtschaft geprägt sind, scheint es, dass in Maribor diese Fragmentierung der Landschaft in OSM besser dargestellt ist.

Beitragende

Aber es gibt noch so viele andere Indikatoren, was ist mit den Kartierern dieser Objekte?

Figure 5: Comparison of mapper attributes between the two regions.
Abbildung 5: Vergleich der Mapper-Attribute zwischen den beiden Regionen.

Die Regionen unterscheiden sich, aber nicht nur auf einer geometrischen Basis. In Zahlen:

name

median_Maribor

mean_Maribor

median_Ngaoundéré

mean_Ngaoundéré

user_diversity

0.565

0.516

1.009

0.931

user_mean_exp

15423648.000

13624181.724

835810.500

970824.977

user_remoteness

99.241

110.572

427.582

1013.249

user_specialisation

0.836

0.821

0.131

0.276

Der Import wird in Maribor mit dieser hochspezialisierten, hochlokalen und hocherfahrenen (in der Definition der direkten Objektbearbeitungszahl) Nutzerbasis wirklich sichtbar. Aber die geringe Varianz in den Daten ist zweifelhaft. Es scheint, als hätte ein einziger Nutzer fast alle Daten in Maribor erstellt. Ein zusätzlicher Indikator könnte uns mehr Hinweise geben.

Community Größe

Figure 6: Community size in relation to the objects mapped.
Abbildung 6: Community Größe in Relation zu den gemappten Objekten.

Und ja, wie erwartet ist die Community, ausgedrückt durch die Anzahl der Nutzenden pro Element in der Umgebung der analysierten Elemente, um eine Größenordnung kleiner.

name

median_Maribor

mean_Maribor

median_Ngaoundéré

mean_Ngaoundéré

how_many_eyes

0.001

0.002

0.009

0.011

Dies kann natürlich ein Artefakt der geringeren Objektgröße und damit einer höheren Anzahl von Objekten in der Umgebung sein. Ein Blick auf die Analysen der Mitwirkenden deutet jedoch in die gleiche Richtung. Tatsächlich wurden 78 % aller Bearbeitungen im Maribor-Datensatz durch das spezielle Importkonto gvil_import vorgenommen.

Mehr Daten!

Wie in Anwendungsfall 1 haben wir immer noch viele weitere Indikatoren:

Figure 7: Overview of data attributes by region. The red lines connect median values.
Abbildung 7: Übersicht der Datenattribute nach Region. Die rote Linie verbindet die Medianwerte.

Einige dieser Daten sind eine Duplizierung von Daten, die wir bereits haben, und machen nur Sinn für einen globalen heterogenen Datensatz. Zum Beispiel die Lage von Maribor in Europa und Nagoundéré in Afrika. Aber auch andere Unterschiede können unser Interesse wecken. Zum Beispiel haben wir eingangs festgestellt, dass die Daten in Kamerun nur vermutlich von einem Import stammen. Tatsächlich werden bei einer Angabe der Datenquelle meist „maxar“ oder andere Satellitenbildanbieter genannt, so dass wir hier noch nicht beweisen können, dass ein Import aus anderen Quellen vorliegt. Beachten Sie auch den Unterschied im Alter der Objekte zwischen den beiden Datensätzen. Der Import in Ngoundéré scheint früher erfolgt zu sein (vor etwa sechs Jahren im Vergleich zu Maribor vor fast zwei Jahren).

Fazit und Ausblick

Das vorgestellte Beispiel kann ein guter Ausgangspunkt für weitere, speziellere Analysen sein. Die Rohdaten würden es beispielsweise ermöglichen, die Ergebnisse der zahlreichen Studien über die Auswirkungen von Einfuhren zu bestätigen oder zu widerlegen, z. B. Durch Witt et al., 2021 oder Juhász und Hochmair, 2018. Auch die Attribute bezüglich des Mapping-Prozesses, wie der verwendete Editor oder der Changeset-Bereich, werden für importierte und anderweitig beschaffte Daten sicherlich unterschiedlich sein. Für dieses Beispiel haben wir jedoch Belege für die Ergebnisse der Clustering-Analysen in unserem vorherigen Paper: Imports create a markable data structure2.

Die hier vorgestellte Analyse könnte auch aus einer anderen Perspektive genutzt werden: Da Importnutzer sowohl hinsichtlich der Anzahl der bearbeiteten Objekte als auch hinsichtlich des thematischen Bereichs der importierten Objekte herausragend sein dürften, könnten wir anhand der hier gezeigten Indikatoren (nicht angemeldete) Importe identifizieren.

1 In einer alternativen Untersuchung könnten wir natürlich zufällige Elemente aus einer Population auswählen und statistische Vergleiche anstellen, wie in diesem Artikel.

2 Um diese Behauptung wirklich zu beweisen, müssten wir natürlich weitere Analysen durchführen und die Daten aus ähnlichen Regionen mit und ohne importierte Daten vergleichen. Aber auch das ist ein Thema für ein anderes Mal.

Comments are closed.