Anwendungsfall: openrouteservice für KI-gestützte Gebäudedaten und demographische Vorhersagen

Diese Forschungsergebnisse zeigen wie räumliche Indikatoren von openrouteservice (ORS) mittels maschinellem Lernen genutzt werden können, um demographische Vorhersagen auf Gebäudeebene zu treffen. Die Analyse kombiniert ORS APIs, Gebäudeattribute und Daten zu POIs zur Schätzung von Bevölkerungs- und Altersmerkmalen in deutschen Städten. Dabei gibt sie Einblicke in die Beziehung zwischen städtischer Erreichbarkeit und demographischen Mustern.

In der heutigen, sehr datengesteuerten Welt ist es für die fundierte Planung und politischen Entscheidungen unerlässlich, Städte auf einer kleinteiligen Ebene zu verstehen. Die bisher verfügbaren Datenquellen wie beispielsweise Zensusdaten und Umfragen werden unregelmäßig erhoben, sind teuer und haben oftmals nicht die passende räumliche Auflösung, die für spezifische städtische Analysen erforderlich sind.

Die kürzlich von Fatemeh Rafiei verfasste Masterarbeit untersucht verschiedenen Techniken maschinellen Lernens, vor allem Random Forest (RF) und Extreme Gradient Boosting (XGBoost), die für demographische Vorhersagen auf Gebäudeebene verwendet werden können. Die Studie vereint verschiedene offene städtische Datensätze und zeigt wie die räumlichen Indikatoren von openrouteservice (ORS) die Vorausmodellierungen verbessern können.

Indem Attribute auf Gebäudeebene mit Daten zu städtischer Erreichbarkeit und Nähe vereint werden, zielt die Analyse darauf ab, demographische Schlüsselfaktoren wie beispielsweise Gesamtbevölkerung, Durchschnittsalter und den Anteil der Einwohnenden unter 18 und über 65 Jahren abzuschätzen. Dieses Vorgehen stellt eine Alternative zu bisher verwendeten Methoden dar, denen es oftmals an aktuellen oder detaillierten demographischen Daten mangelt.

Grundlage für die vorgenommene Analyse sind Methoden, die in anderen städtischen Kontexten entwickelt wurden. Ein Beispiel dafür ist die Arbeit von Szarka und Biljecki (2022), die in Singapur entwickelt wurde und nun in Deutschland angewandt wurde. Die Modelle wurden mit Daten aus Stuttgart trainiert und in Dresden getestet. Dadurch konnte die Übertragbarkeit solcher Ansätze auf verschiedene städtische Umgebungen bewertet werden.

Im Mittelpunkt der Arbeit steht die Nutzung des openrouteservice APIs, mit dem räumliche Merkmale, die im Zusammenhang mit Mobilität und Erreichbarkeit stehen, generiert wurden. Diese Indikatoren trugen dazu bei, dass die Modelle in der Lage waren, demographische Muster auf Mikroebene vorherzusagen.

Karte von Stuttgart; ORS Isochrones API zur Zählung ausgewählter POIs innerhalb eines 15-minütigen Fußwegs von einem Gebäude in Stuttgart
Verwendung der ORS Isochrones API zur Zählung ausgewählter POIs innerhalb eines 15-minütigen Fußwegs von einem Gebäude in Stuttgart

openrouteservice (ORS) APIs als Indikatoren:

Der Directions API von ORS wurde verwendet, um die Entfernung und die Gehzeit von jedem Wohngebäude zum Stadtzentrum zu berechnen. Diese Daten wurden als Input in die ML Modelle eingefügt, um so Vorhersagen zur Bevölkerungsverteilung, Durchschnittsalter und Verteilung der Altersgruppen auf Gebäudeebene zu machen. Die Zugänglichkeit zum Stadtzentrum ist ein städtischer Faktor, der die Wohnortentscheidung von Menschen beeinflussen kann. Einwohnende, die näher an Dienstleistungen und Einrichtungen wohnen möchten, wählen eher Wohngebiete, von denen das Zentrum fußläufig erreichbar ist.

Der ORS Isochrones API lieferte Informationen dazu, um diejenigen Bereiche zu definieren, die innerhalb von 15 Gehminuten von den einzelnen Wohngebäuden erreichbar sind. Diese Gebiete wurden dann genutzt, um die Erreichbarkeit einzelner POI-Kategorien zu bewerten, die auf OpenStreetMap (OSM) beruhen. Die Anzahl von POIs einer Kategorie, die innerhalb von 15 Gehminuten erreichbar sind, dienen als Haupt-Input-Indikatoren für demographische Voraussagen. Diese Indikatoren helfen den Modellen dabei, den Zusammenhang zwischen Erreichbarkeit und den demographischen Merkmalen zu erlernen. Bereiche mit einer höheren Vielfalt von erreichbaren POIs neigen dazu, größere und diversere Einwohnenden anzuziehen. Ein Beispiel dafür ist die Nähe zu Parks, die das Wohngebiet vor allem für Familien mit Kindern attraktiv macht.

Daten:

  • Building data: 2D Fußabdrücke von Gebäuden, bereitgestellt des IÖR Dresden, abgeleitet von den 2022 3D CityGML Daten des Bundesamts für Katographie und Geodäsie. Die Daten beinhalten strukturelle Details wie Volumen, Höhe, Gebiet, Umfang und Dachtyp
  • Demographic data: Die Daten stammen aus dem Zensus 2022 und werden vom Statistischen Bundesamt Deutschland zur Verfügung gestellt. Die Daten umfassen Bevölkerung, Durchschnittsalter und den Anteil der Altersgruppen auf der Ebene eines 100-Meter-Rasters.
  • POI data: Die Daten stammen von OSM 2024 und beinhalten Schlüssel-Wert-Paar-Attribute für verschiedenen Arten von öffentlichen Diensten wie Schulen, Krankenhäuser und Apotheken.
  • Block data: Digitales Landschaftsmodell (DLM) des deutschen Amtlichen Topographisch-Kartographischen Informationssystems (ATKIS), bereitgestellt durch das Bundesamt für Katographie und Geodäsie 2022. Die Daten umfassen die Arten der Blöcke wie Wohn-, Industrie- und Mischnutzung.

Zusammenfassung:

Die Ergebnisse des Modells für maschinelles Lernen zeigen, dass sowohl die Gehdistanz als auch die Gehzeit zum Stadtzentrum sowohl in Random Forest als auch im XGBoost-Modell durchweg unter den 15 wichtigsten von 59 Merkmalen zu finden sind. Somit wird unterstrichen wie bedeutsam die städtische Erreichbarkeit, welche mittels OSM Indikatoren festgestellt wurde, für die Wohnortentscheidung ist.

Während die Daten der Points of Interest (POI) sich nicht als starker Prädikator für die Gesamtbevölkerung erwiesen, hatten bestimmte POI-Kategorien einen größeren Einfluss auf die Schätzung von altersbezogenen demographischen Merkmalen. Dies deutet darauf hin, dass die POI-Daten zwar möglicherweise besser darin geeignet sind, Schwankungen in der demographischen Zusammensetzung – insbesondere in Bezug auf das Alter – abzubilden als die Bevölkerungsgröße allein.

Diese Ergebnisse unterscheiden von der ähnlich durchgeführten Analyse in Singapur, wo mehr detaillierte Daten zu Immobilien und Eigentumsebenen zur Verfügung standen.

Insgesamt unterstreicht die Analyse das Potenzial davon, offene Geodaten, wie die von openrouteservice, mit maschinellem Lernen zu kombinieren, um demographische Variablen mit hoher räumlicher Auflösung zu schätzen – insbesondere in Umgebungen, in denen nur wenige Daten vorliegen.

Literatur:

Szarka N, Biljecki F (2022) Population estimation beyond counts—Inferring demographic characteristics. PLoS ONE 17(4): e0266484. Population estimation beyond counts—Inferring demographic characteristics