S2vec embedder

Run this notebook in Google Colab:

Remember to install the srai library before running the notebook:

%pip install srai[all]

In [1]:

Copied!





import warnings

import contextily as cx
import matplotlib.pyplot as plt
import pandas as pd
import torch
from pytorch_lightning import seed_everything
from pytorch_lightning.loggers import CSVLogger
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from srai.embedders import S2VecEmbedder
from srai.embedders.s2vec.s2_utils import get_patches_from_img_gdf
from srai.loaders import OSMPbfLoader
from srai.loaders.osm_loaders.filters import GEOFABRIK_LAYERS
from srai.plotting import plot_regions
from srai.regionalizers import S2Regionalizer, geocode_to_region_gdf
import warnings

import contextily as cx
import matplotlib.pyplot as plt
import pandas as pd
import torch
from pytorch_lightning import seed_everything
from pytorch_lightning.loggers import CSVLogger
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from srai.embedders import S2VecEmbedder
from srai.embedders.s2vec.s2_utils import get_patches_from_img_gdf
from srai.loaders import OSMPbfLoader
from srai.loaders.osm_loaders.filters import GEOFABRIK_LAYERS
from srai.plotting import plot_regions
from srai.regionalizers import S2Regionalizer, geocode_to_region_gdf

In [2]:

Copied!

SEED = 71
seed_everything(SEED)
SEED = 71
seed_everything(SEED)

Seed set to 71

Out[2]:

Load data from OSM¶

First use geocoding to get the area

In [3]:

Copied!

area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")
area_gdf = geocode_to_region_gdf("Wrocław, Poland")
plot_regions(area_gdf, tiles_style="CartoDB positron")

Out[3]:

Make this Notebook Trusted to load map: File -> Trust Notebook

In [4]:

Copied!

img_resolution = 12
patch_resolution = 16

img_regionalizer = S2Regionalizer(resolution=img_resolution, buffer=True)
img_s2_regions = img_regionalizer.transform(area_gdf.reset_index(drop=True))

img_s2_geometry = img_s2_regions.union_all()

print("Image regions:", len(img_s2_regions))
img_resolution = 12
patch_resolution = 16

img_regionalizer = S2Regionalizer(resolution=img_resolution, buffer=True)
img_s2_regions = img_regionalizer.transform(area_gdf.reset_index(drop=True))

img_s2_geometry = img_s2_regions.union_all()

print("Image regions:", len(img_s2_regions))

Image regions: 85

Download the Data¶

Next, download the data for the selected region and the specified tags.

In [5]:

Copied!

tags = GEOFABRIK_LAYERS
loader = OSMPbfLoader()

features_gdf = loader.load(img_s2_regions, tags)
tags = GEOFABRIK_LAYERS
loader = OSMPbfLoader()

features_gdf = loader.load(img_s2_regions, tags)

/opt/hostedtoolcache/Python/3.10.18/x64/lib/python3.10/site-packages/quackosm/osm_extracts/__init__.py:592: GeometryNotCoveredWarning: Skipping extract because of low IoU value (geofabrik_europe_poland_dolnoslaskie, 0.000265).
  warnings.warn(

Finished operation in 0:00:21

Prepare the data for embedding¶

After downloading the data, we need to prepare it for embedding. In the previous step we have regionalized the selected area and buffered it, now we have to join the features with prepared regions.

In [6]:

Copied!

plot_regions(img_s2_regions, tiles_style="CartoDB positron")
plot_regions(img_s2_regions, tiles_style="CartoDB positron")

Out[6]:

Make this Notebook Trusted to load map: File -> Trust Notebook

S2Vec Embedding¶

After preparing the data we can proceed with generating embeddings for the regions.

In [7]:

Copied!





embedder = S2VecEmbedder(
    target_features=GEOFABRIK_LAYERS,
    batch_size=8,
    img_res=img_resolution,
    patch_res=patch_resolution,
    embedding_dim=64,
    decoder_dim=32,
)
embedder = S2VecEmbedder(
    target_features=GEOFABRIK_LAYERS,
    batch_size=8,
    img_res=img_resolution,
    patch_res=patch_resolution,
    embedding_dim=64,
    decoder_dim=32,
)

In [8]:

Copied!





with warnings.catch_warnings():
    warnings.simplefilter("ignore")

    csv_logger = CSVLogger(save_dir="s2vec_logs")

    embeddings = embedder.fit_transform(
        regions_gdf=img_s2_regions,
        features_gdf=features_gdf,
        trainer_kwargs={
            # "max_epochs": 20, # uncomment for a longer training
            "max_epochs": 5,
            "accelerator": ("cpu" if torch.backends.mps.is_available() else "auto"),
            "logger": csv_logger,
        },
        learning_rate=0.001,
    )

embeddings.head()
with warnings.catch_warnings():
    warnings.simplefilter("ignore")

    csv_logger = CSVLogger(save_dir="s2vec_logs")

    embeddings = embedder.fit_transform(
        regions_gdf=img_s2_regions,
        features_gdf=features_gdf,
        trainer_kwargs={
            # "max_epochs": 20, # uncomment for a longer training
            "max_epochs": 5,
            "accelerator": ("cpu" if torch.backends.mps.is_available() else "auto"),
            "logger": csv_logger,
        },
        learning_rate=0.001,
    )

embeddings.head()

GPU available: False, used: False

TPU available: False, using: 0 TPU cores

HPU available: False, using: 0 HPUs

  | Name          | Type       | Params | Mode 
-----------------------------------------------------
0 | patch_embed   | Linear     | 22.3 K | train
1 | encoder       | MAEEncoder | 300 K  | train
2 | decoder_embed | Linear     | 2.1 K  | train
3 | decoder       | MAEDecoder | 36.9 K | train
  | other params  | n/a        | 24.8 K | n/a  
-----------------------------------------------------
361 K     Trainable params
24.7 K    Non-trainable params
386 K     Total params
1.544     Total estimated model params size (MB)
185       Modules in train mode
0         Modules in eval mode

`Trainer.fit` stopped: `max_epochs=5` reached.

Out[8]:

	0	1	2	3	4	5	6	7	8	9	...	54	55	56	57	58	59	60	61	62	63
region_id
470f94801	-1.483052	-1.124458	0.838112	0.232062	0.867076	-0.192192	0.282989	2.005012	-0.704931	0.862312	...	-1.581097	0.124035	0.298871	1.582569	0.223823	-0.073094	1.900617	0.481855	0.142504	-0.825361
470f94803	-1.508432	-1.126374	0.821325	0.194701	0.869709	-0.225113	0.279502	1.974565	-0.738032	0.864134	...	-1.550820	0.077613	0.289352	1.604075	0.219146	-0.019107	1.896293	0.493340	0.145462	-0.889013
470f9481d	-1.513304	-1.131904	0.835087	0.190853	0.873019	-0.219920	0.282999	1.973851	-0.739035	0.868064	...	-1.559638	0.056457	0.309163	1.618248	0.217345	-0.018365	1.892292	0.499240	0.150677	-0.881158
470f9481f	-1.511956	-1.128453	0.857148	0.190987	0.871833	-0.211422	0.292829	1.978730	-0.731067	0.865740	...	-1.568721	0.060553	0.318245	1.617808	0.212773	-0.024786	1.880469	0.508763	0.159009	-0.848695
470f94821	-1.503572	-1.124163	0.869170	0.198798	0.866667	-0.211047	0.304618	1.978373	-0.720223	0.860187	...	-1.568946	0.085286	0.308292	1.607450	0.207935	-0.032361	1.869027	0.512491	0.159643	-0.818789

5 rows × 64 columns

In [9]:

Copied!





metrics_df = pd.read_csv(csv_logger.log_dir + "/metrics.csv").dropna(
    subset="train_loss_epoch"
)

fig, ax = plt.subplots(1, 1, figsize=(10, 5))

line1 = ax.plot(metrics_df["epoch"], metrics_df["train_loss_epoch"])
ax.set_title("Training metrics")
ax.set_ylabel("Loss")
ax.set_xlabel("Epoch")
plt.show()
metrics_df = pd.read_csv(csv_logger.log_dir + "/metrics.csv").dropna(
    subset="train_loss_epoch"
)

fig, ax = plt.subplots(1, 1, figsize=(10, 5))

line1 = ax.plot(metrics_df["epoch"], metrics_df["train_loss_epoch"])
ax.set_title("Training metrics")
ax.set_ylabel("Loss")
ax.set_xlabel("Epoch")
plt.show()

No description has been provided for this image

In [10]:

Copied!





patch_s2_regions, _ = get_patches_from_img_gdf(
    img_s2_regions, target_level=patch_resolution
)

# do pca with three components and then cast to RGB
pca = PCA(n_components=3)

pca_embeddings = pca.fit_transform(embeddings)
# make the embeddings into a dataframe
pca_embeddings = pd.DataFrame(pca_embeddings, index=embeddings.index)

# convert to RGB
pca_embeddings = (
    (pca_embeddings - pca_embeddings.min())
    / (pca_embeddings.max() - pca_embeddings.min())
).astype(float)
pca_embeddings["rgb"] = pca_embeddings.apply(
    lambda row: (row[0], row[1], row[2]), axis=1
)
color_values = patch_s2_regions.index.map(pca_embeddings["rgb"].to_dict()).to_list()

ax = (
    patch_s2_regions.reset_index()
    .reset_index()
    .plot(color=color_values, antialiased=True, figsize=(20, 20), alpha=0.6)
)
cx.add_basemap(ax, source=cx.providers.CartoDB.PositronNoLabels, crs=4326, zoom=12)
ax.set_axis_off()
ax.set_title("PCA representaion of embeddings")
plt.show()
patch_s2_regions, _ = get_patches_from_img_gdf(
    img_s2_regions, target_level=patch_resolution
)

# do pca with three components and then cast to RGB
pca = PCA(n_components=3)

pca_embeddings = pca.fit_transform(embeddings)
# make the embeddings into a dataframe
pca_embeddings = pd.DataFrame(pca_embeddings, index=embeddings.index)

# convert to RGB
pca_embeddings = (
    (pca_embeddings - pca_embeddings.min())
    / (pca_embeddings.max() - pca_embeddings.min())
).astype(float)
pca_embeddings["rgb"] = pca_embeddings.apply(
    lambda row: (row[0], row[1], row[2]), axis=1
)
color_values = patch_s2_regions.index.map(pca_embeddings["rgb"].to_dict()).to_list()

ax = (
    patch_s2_regions.reset_index()
    .reset_index()
    .plot(color=color_values, antialiased=True, figsize=(20, 20), alpha=0.6)
)
cx.add_basemap(ax, source=cx.providers.CartoDB.PositronNoLabels, crs=4326, zoom=12)
ax.set_axis_off()
ax.set_title("PCA representaion of embeddings")
plt.show()

Clustering¶

In [11]:

Copied!





clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)
embeddings.index.name = "region_id"
embeddings["cluster"] = clusterizer.labels_
embeddings["cluster"]
clusterizer = KMeans(n_clusters=5, random_state=SEED)
clusterizer.fit(embeddings)
embeddings.index.name = "region_id"
embeddings["cluster"] = clusterizer.labels_
embeddings["cluster"]

Out[11]:

region_id
470f94801    0
470f94803    0
470f9481d    0
470f9481f    0
470f94821    0
            ..
470feca75    0
470feca0b    0
470feca09    0
470feca07    0
470feca01    0
Name: cluster, Length: 21760, dtype: int32

In [12]:

Copied!





ax = patch_s2_regions.plot(
    embeddings["cluster"],
    antialiased=True,
    figsize=(20, 20),
    alpha=0.6,
    legend=True,
    cmap="Spectral",
    categorical=True,
)
cx.add_basemap(ax, source=cx.providers.CartoDB.PositronNoLabels, crs=4326, zoom=12)
ax.set_axis_off()
ax.set_title("Clustering result")
plt.show()
ax = patch_s2_regions.plot(
    embeddings["cluster"],
    antialiased=True,
    figsize=(20, 20),
    alpha=0.6,
    legend=True,
    cmap="Spectral",
    categorical=True,
)
cx.add_basemap(ax, source=cx.providers.CartoDB.PositronNoLabels, crs=4326, zoom=12)
ax.set_axis_off()
ax.set_title("Clustering result")
plt.show()