Hex2vec embedder

In [1]:

Copied!





from pytorch_lightning import seed_everything

from srai.embedders import Hex2VecEmbedder
from srai.joiners import IntersectionJoiner
from srai.loaders import OSMOnlineLoader
from srai.neighbourhoods import H3Neighbourhood
from srai.plotting import plot_numeric_data, plot_regions
from srai.regionalizers import H3Regionalizer, geocode_to_region_gdf
from pytorch_lightning import seed_everything

from srai.embedders import Hex2VecEmbedder
from srai.joiners import IntersectionJoiner
from srai.loaders import OSMOnlineLoader
from srai.neighbourhoods import H3Neighbourhood
from srai.plotting import plot_numeric_data, plot_regions
from srai.regionalizers import H3Regionalizer, geocode_to_region_gdf

In [2]:

Copied!

SEED = 71
seed_everything(SEED)
SEED = 71
seed_everything(SEED)

Seed set to 71

Out[2]:

Load data from OSM¶

First use geocoding to get the area

In [3]:

Copied!

area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")
area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")

Out[3]:

Make this Notebook Trusted to load map: File -> Trust Notebook

Next, download the data for the selected region and the specified tags. We're using OSMOnlineLoader here, as it's faster for low numbers of tags. In a real life scenario with more tags, you would likely want to use the OSMPbfLoader.

In [4]:

Copied!





tags = {
    "leisure": "park",
    "landuse": "forest",
    "amenity": ["bar", "restaurant", "cafe"],
    "water": "river",
    "sport": "soccer",
}
loader = OSMOnlineLoader()

features_gdf = loader.load(area_gdf, tags)

folium_map = plot_regions(area_gdf, colormap=["rgba(0,0,0,0)"], tiles_style="CartoDB positron")
features_gdf.explore(m=folium_map)
tags = {
    "leisure": "park",
    "landuse": "forest",
    "amenity": ["bar", "restaurant", "cafe"],
    "water": "river",
    "sport": "soccer",
}
loader = OSMOnlineLoader()

features_gdf = loader.load(area_gdf, tags)

folium_map = plot_regions(area_gdf, colormap=["rgba(0,0,0,0)"], tiles_style="CartoDB positron")
features_gdf.explore(m=folium_map)

  0%|          | 0/7 [00:00<?, ?it/s]

Downloading leisure: park      :   0%|          | 0/7 [00:00<?, ?it/s]

Downloading leisure: park      :  14%|█▍        | 1/7 [00:03<00:22,  3.71s/it]

Downloading landuse: forest    :  14%|█▍        | 1/7 [00:03<00:22,  3.71s/it]

Downloading landuse: forest    :  29%|██▊       | 2/7 [00:08<00:21,  4.23s/it]

Downloading amenity: bar       :  29%|██▊       | 2/7 [00:08<00:21,  4.23s/it]

Downloading amenity: bar       :  43%|████▎     | 3/7 [00:10<00:13,  3.40s/it]

Downloading amenity: restaurant:  43%|████▎     | 3/7 [00:10<00:13,  3.40s/it]

Downloading amenity: restaurant:  57%|█████▋    | 4/7 [00:35<00:35, 11.74s/it]

Downloading amenity: cafe      :  57%|█████▋    | 4/7 [00:35<00:35, 11.74s/it]

Downloading amenity: cafe      :  71%|███████▏  | 5/7 [00:37<00:16,  8.40s/it]

Downloading water: river       :  71%|███████▏  | 5/7 [00:37<00:16,  8.40s/it]

Downloading water: river       :  86%|████████▌ | 6/7 [00:41<00:06,  6.71s/it]

Downloading sport: soccer      :  86%|████████▌ | 6/7 [00:41<00:06,  6.71s/it]

Downloading sport: soccer      : 100%|██████████| 7/7 [00:43<00:00,  5.43s/it]

Downloading sport: soccer      : 100%|██████████| 7/7 [00:43<00:00,  6.28s/it]

Out[4]:

Make this Notebook Trusted to load map: File -> Trust Notebook

Prepare the data for embedding¶

After downloading the data, we need to prepare it for embedding. Namely - we need to regionalize the selected area, and join the features with regions.

In [5]:

Copied!

regionalizer = H3Regionalizer(resolution=9)
regions_gdf = regionalizer.transform(area_gdf)
plot_regions(regions_gdf, tiles_style="CartoDB positron")
regionalizer = H3Regionalizer(resolution=9)
regions_gdf = regionalizer.transform(area_gdf)
plot_regions(regions_gdf, tiles_style="CartoDB positron")

Out[5]:

Make this Notebook Trusted to load map: File -> Trust Notebook

In [6]:

Copied!

joiner = IntersectionJoiner()
joint_gdf = joiner.transform(regions_gdf, features_gdf)
joint_gdf
joiner = IntersectionJoiner()
joint_gdf = joiner.transform(regions_gdf, features_gdf)
joint_gdf

Out[6]:


region_id	feature_id
891e2055b27ffff	relation/14339424
891e2055b27ffff	node/4222190396
891e2050b47ffff	relation/1559777
	way/29404332
	way/311761149
...	...
891e204251bffff	way/435495732
891e2042827ffff	way/1056180351
891e20442d7ffff	way/381939983
	way/381939938
	way/110501826

4024 rows × 0 columns

Embedding¶

After preparing the data we can proceed with generating embeddings for the regions.

In [7]:

Copied!





import warnings

neighbourhood = H3Neighbourhood(regions_gdf)
embedder = Hex2VecEmbedder([15, 10])

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    embeddings = embedder.fit_transform(
        regions_gdf,
        features_gdf,
        joint_gdf,
        neighbourhood,
        trainer_kwargs={"max_epochs": 5, "accelerator": "cpu"},
        batch_size=100,
    )
embeddings
import warnings

neighbourhood = H3Neighbourhood(regions_gdf)
embedder = Hex2VecEmbedder([15, 10])

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    embeddings = embedder.fit_transform(
        regions_gdf,
        features_gdf,
        joint_gdf,
        neighbourhood,
        trainer_kwargs={"max_epochs": 5, "accelerator": "cpu"},
        batch_size=100,
    )
embeddings

  0%|          | 0/3168 [00:00<?, ?it/s]

100%|██████████| 3168/3168 [00:00<00:00, 32033.87it/s]

GPU available: False, used: False

TPU available: False, using: 0 TPU cores

IPU available: False, using: 0 IPUs

HPU available: False, using: 0 HPUs

Missing logger folder: /home/runner/work/srai/srai/examples/embedders/lightning_logs

  | Name    | Type       | Params
---------------------------------------
0 | encoder | Sequential | 280   
---------------------------------------
280       Trainable params
0         Non-trainable params
280       Total params
0.001     Total estimated model params size (MB)

`Trainer.fit` stopped: `max_epochs=5` reached.

Out[7]:

	0	1	2	3	4	5	6	7	8	9
region_id
891e2040317ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e2055b27ffff	0.054981	0.117424	0.444978	0.618073	-0.105195	-0.071252	0.464371	-0.347658	0.463530	0.032849
891e20402b3ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e204282fffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e2050b47ffff	-0.416563	-0.140404	-0.116602	-1.032999	-0.311619	0.297523	0.209845	0.541330	-0.121695	-0.735279
...	...	...	...	...	...	...	...	...	...	...
891e20429a7ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e20473dbffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e204244bffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926
891e2042827ffff	0.061202	0.109862	0.451535	0.578636	-0.160396	-0.004274	0.358026	-0.382113	0.400536	0.051121
891e20442d7ffff	-0.550784	0.390015	-0.488195	-0.784662	-0.095169	0.233162	-0.221192	0.374109	-0.156548	-0.249141

3168 rows × 10 columns

Visualizing the embeddings' similarity¶

In [8]:

Copied!

from sklearn.cluster import KMeans

clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)

embeddings["cluster"] = clusterizer.labels_
embeddings
from sklearn.cluster import KMeans

clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)

embeddings["cluster"] = clusterizer.labels_
embeddings

Out[8]:

	0	1	2	3	4	5	6	7	8	9	cluster
region_id
891e2040317ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e2055b27ffff	0.054981	0.117424	0.444978	0.618073	-0.105195	-0.071252	0.464371	-0.347658	0.463530	0.032849	2
891e20402b3ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e204282fffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e2050b47ffff	-0.416563	-0.140404	-0.116602	-1.032999	-0.311619	0.297523	0.209845	0.541330	-0.121695	-0.735279	1
...	...	...	...	...	...	...	...	...	...	...	...
891e20429a7ffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e20473dbffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e204244bffff	0.334799	-0.238250	-0.035819	0.275658	0.219949	-0.132110	-0.270282	-0.069363	-0.221657	0.328926	0
891e2042827ffff	0.061202	0.109862	0.451535	0.578636	-0.160396	-0.004274	0.358026	-0.382113	0.400536	0.051121	2
891e20442d7ffff	-0.550784	0.390015	-0.488195	-0.784662	-0.095169	0.233162	-0.221192	0.374109	-0.156548	-0.249141	1

3168 rows × 11 columns

In [9]:

Copied!

plot_numeric_data(regions_gdf, "cluster", embeddings)
plot_numeric_data(regions_gdf, "cluster", embeddings)

Out[9]:

Make this Notebook Trusted to load map: File -> Trust Notebook