Hex2vec embedder

In [1]:

                
                    Copied!
                    
                        
                        
                    
                    

            
from srai.embedders import Hex2VecEmbedder
from srai.joiners import IntersectionJoiner
from srai.loaders import OSMOnlineLoader
from srai.neighbourhoods import H3Neighbourhood
from srai.regionalizers import H3Regionalizer
from srai.utils import geocode_to_region_gdf
from srai.plotting import plot_regions, plot_numeric_data
from pytorch_lightning import seed_everything
from srai.embedders import Hex2VecEmbedder
from srai.joiners import IntersectionJoiner
from srai.loaders import OSMOnlineLoader
from srai.neighbourhoods import H3Neighbourhood
from srai.regionalizers import H3Regionalizer
from srai.utils import geocode_to_region_gdf
from srai.plotting import plot_regions, plot_numeric_data
from pytorch_lightning import seed_everything

In [2]:

                
                    Copied!
                    
SEED = 71
seed_everything(SEED)
SEED = 71
seed_everything(SEED)

Global seed set to 71

Out[2]:

Load data from OSM¶

First use geocoding to get the area

In [3]:

                
                    Copied!
                    
area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")
area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")

Out[3]:

Make this Notebook Trusted to load map: File -> Trust Notebook

Next, download the data for the selected region and the specified tags. We're using OSMOnlineLoader here, as it's faster for low numbers of tags. In a real life scenario with more tags, you would likely want to use the OSMPbfLoader.

In [4]:

                
                    Copied!
                    
                        
                        
                    
                    

            
tags = {
    "leisure": "park",
    "landuse": "forest",
    "amenity": ["bar", "restaurant", "cafe"],
    "water": "river",
    "sport": "soccer",
}
loader = OSMOnlineLoader()

features_gdf = loader.load(area_gdf, tags)

folium_map = plot_regions(area_gdf, colormap=["rgba(0,0,0,0)"], tiles_style="CartoDB positron")
features_gdf.explore(m=folium_map)
tags = {
    "leisure": "park",
    "landuse": "forest",
    "amenity": ["bar", "restaurant", "cafe"],
    "water": "river",
    "sport": "soccer",
}
loader = OSMOnlineLoader()

features_gdf = loader.load(area_gdf, tags)

folium_map = plot_regions(area_gdf, colormap=["rgba(0,0,0,0)"], tiles_style="CartoDB positron")
features_gdf.explore(m=folium_map)

Downloading sport: soccer      : 100%|██████████| 7/7 [00:02<00:00,  3.43it/s]

Out[4]:

Make this Notebook Trusted to load map: File -> Trust Notebook

Prepare the data for embedding¶

After downloading the data, we need to prepare it for embedding. Namely - we need to regionalize the selected area, and join the features with regions.

In [5]:

                
                    Copied!
                    
regionalizer = H3Regionalizer(resolution=9)
regions_gdf = regionalizer.transform(area_gdf)
plot_regions(regions_gdf, tiles_style="CartoDB positron")
regionalizer = H3Regionalizer(resolution=9)
regions_gdf = regionalizer.transform(area_gdf)
plot_regions(regions_gdf, tiles_style="CartoDB positron")

Out[5]:

Make this Notebook Trusted to load map: File -> Trust Notebook

In [6]:

                
                    Copied!
                    
joiner = IntersectionJoiner()
joint_gdf = joiner.transform(regions_gdf, features_gdf)
joint_gdf
joiner = IntersectionJoiner()
joint_gdf = joiner.transform(regions_gdf, features_gdf)
joint_gdf

Out[6]:


region_id	feature_id
891e2042963ffff	way/376030919
891e204296fffff	way/376030919
891e204296bffff	way/376030919
891e2050b6fffff	relation/11999437
891e204256bffff	relation/11999437
...	...
891e2040cdbffff	node/8301120639
891e2040193ffff	node/3037683513
891e2040193ffff	way/160280179
891e20405bbffff	node/8104080367
891e2042b17ffff	way/101562430

3779 rows × 0 columns

Embedding¶

After preparing the data we can proceed with generating embeddings for the regions.

In [7]:

                
                    Copied!
                    
                        
                        
                    
                    

            
import warnings

neighbourhood = H3Neighbourhood(regions_gdf)
embedder = Hex2VecEmbedder([15, 10])

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    embeddings = embedder.fit_transform(
        regions_gdf,
        features_gdf,
        joint_gdf,
        neighbourhood,
        trainer_kwargs={"max_epochs": 5, "accelerator": "cpu"},
        batch_size=100,
    )
embeddings
import warnings

neighbourhood = H3Neighbourhood(regions_gdf)
embedder = Hex2VecEmbedder([15, 10])

with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    embeddings = embedder.fit_transform(
        regions_gdf,
        features_gdf,
        joint_gdf,
        neighbourhood,
        trainer_kwargs={"max_epochs": 5, "accelerator": "cpu"},
        batch_size=100,
    )
embeddings

100%|██████████| 3168/3168 [00:00<00:00, 22398.96it/s]
GPU available: False, used: False
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs

  | Name    | Type       | Params
---------------------------------------
0 | encoder | Sequential | 280   
---------------------------------------
280       Trainable params
0         Non-trainable params
280       Total params
0.001     Total estimated model params size (MB)

`Trainer.fit` stopped: `max_epochs=5` reached.

Out[7]:

	0	1	2	3	4	5	6	7	8	9
region_id
891e2042963ffff	0.396230	-0.310634	0.224978	0.407004	0.189234	-0.200695	0.106866	-0.112805	-0.009102	0.162045
891e2041803ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302
891e2050b6fffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452
891e2041c87ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302
891e204064fffff	0.091055	0.205156	0.443042	0.601309	-0.176893	-0.040815	0.315152	-0.403951	0.360046	0.114688
...	...	...	...	...	...	...	...	...	...	...
891e204735bffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302
891e204203bffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452
891e2051843ffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452
891e2040017ffff	0.091055	0.205156	0.443042	0.601309	-0.176893	-0.040815	0.315152	-0.403951	0.360046	0.114688
891e2040463ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302

3168 rows × 10 columns

Visualizing the embeddings' similarity¶

In [8]:

                
                    Copied!
                    
from sklearn.cluster import KMeans

clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)

embeddings["cluster"] = clusterizer.labels_
embeddings
from sklearn.cluster import KMeans

clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)

embeddings["cluster"] = clusterizer.labels_
embeddings

/opt/hostedtoolcache/Python/3.10.12/x64/lib/python3.10/site-packages/sklearn/cluster/_kmeans.py:1412: FutureWarning: The default value of `n_init` will change from 10 to 'auto' in 1.4. Set the value of `n_init` explicitly to suppress the warning
  super()._check_params_vs_input(X, default_n_init=10)

Out[8]:

	0	1	2	3	4	5	6	7	8	9	cluster
region_id
891e2042963ffff	0.396230	-0.310634	0.224978	0.407004	0.189234	-0.200695	0.106866	-0.112805	-0.009102	0.162045	0
891e2041803ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302	0
891e2050b6fffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452	1
891e2041c87ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302	0
891e204064fffff	0.091055	0.205156	0.443042	0.601309	-0.176893	-0.040815	0.315152	-0.403951	0.360046	0.114688	2
...	...	...	...	...	...	...	...	...	...	...	...
891e204735bffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302	0
891e204203bffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452	1
891e2051843ffff	-0.448988	0.132562	-0.399787	-0.615520	-0.040260	0.279762	-0.348620	0.407011	-0.110590	-0.127452	1
891e2040017ffff	0.091055	0.205156	0.443042	0.601309	-0.176893	-0.040815	0.315152	-0.403951	0.360046	0.114688	2
891e2040463ffff	0.342493	-0.233499	-0.034656	0.266760	0.214640	-0.124336	-0.250543	-0.107750	-0.219740	0.342302	0

3168 rows × 11 columns

In [9]:

                
                    Copied!
                    
plot_numeric_data(regions_gdf, embeddings, "cluster", tiles_style="CartoDB positron")
plot_numeric_data(regions_gdf, embeddings, "cluster", tiles_style="CartoDB positron")

Out[9]:

Make this Notebook Trusted to load map: File -> Trust Notebook