Skip to content

Commit

Permalink
Add Eudonet Paris import GitHub Action
Browse files Browse the repository at this point in the history
  • Loading branch information
florimondmanca committed Feb 13, 2024
1 parent 8ee785d commit 5ffd553
Show file tree
Hide file tree
Showing 10 changed files with 402 additions and 19 deletions.
91 changes: 91 additions & 0 deletions .github/workflows/eudonet_paris_import.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,91 @@
name: Eudonet Paris Import

# on:
# schedule:
# - cron: '0 17 * * 1' # Tous les lundis à 17h00

on:
push:
branches:
- feat/eudonet-auto

jobs:
eudonet_paris_import:
runs-on: ubuntu-latest

steps:
- uses: actions/checkout@v1

- name: Setup PHP with PECL extension
uses: shivammathur/setup-php@v2
with:
php-version: '8.2'

- name: Get Composer Cache Directory
id: composer-cache
run: |
echo "dir=$(composer config cache-files-dir)" >> $GITHUB_OUTPUT
- uses: actions/cache@v3
with:
path: ${{ steps.composer-cache.outputs.dir }}
key: ${{ runner.os }}-composer-${{ hashFiles('**/composer.lock') }}
restore-keys: |
${{ runner.os }}-composer-
- name: Install Scalingo CLI
run: curl -O https://cli-dl.scalingo.com/install && bash install

- name: Install SSH key
# Credit: https://stackoverflow.com/a/69234389
run: |
install -m 600 -D /dev/null ~/.ssh/id_rsa
echo "${{ secrets.GH_SCALINGO_SSH_PRIVATE_KEY }}" > ~/.ssh/id_rsa
- uses: actions/cache@v3
id: addok-bundle-cache
with:
path: docker/addok/addok-data
key: ${{ runner.os }}-addok-bundle-${{ secrets.EUDONET_PARIS_KDRIVE_FILE_ID }}
restore-keys: |
${{ runner.os }}-addok-bundle-
- name: Download and unzip Addok bundle
if: steps.addok-bundle-cache.outputs.cache-hit != 'true'
run: |
mkdir -p tmp
bash tools/download_addok_bundle.sh tmp/addok-archive.zip
unzip -d tmp/addok-archive tmp/addok-archive.zip
unzip -d docker/addok/addok-data tmp/addok-archive/addok-dialog-bundle.zip
env:
EUDONET_PARIS_KDRIVE_TOKEN: ${{ secrets.EUDONET_PARIS_KDRIVE_TOKEN }}
EUDONET_PARIS_KDRIVE_FILE_ID: ${{ secrets.EUDONET_PARIS_KDRIVE_FILE_ID }}

- name: Start Addok
run: |
make addok_start
./tools/wait_for_url.py --interval 5 --max-attempts 10 "http://localhost:7878/search?q=rue+de+la+concertation"
- name: Init environment variables
run: |
echo "DATABASE_URL=${{ secrets.EUDONET_PARIS_IMPORT_DATABASE_URL_PR }}" >> .env.local
# Deal with JSON quotes
printf "APP_EUDONET_PARIS_CREDENTIALS='%s'\n" '${{ secrets.APP_EUDONET_PARIS_CREDENTIALS }}' >> .env.local
echo "APP_EUDONET_PARIS_ORG_ID=${{ secrets.APP_EUDONET_PARIS_ORG_ID_PR }}" >> .env.local
echo "API_ADRESSE_BASE_URL=http://localhost:7878" >> .env.local
- name: Run import
run: make eudonet_paris_import_ci BIN_PHP="php" BIN_CONSOLE="php bin/console" BIN_COMPOSER="composer"

- name: Get log file path
id: logfile
if: ${{ !cancelled() }}
run:
echo "path=$(find log/eudonet_paris -type f -name '*.log' | head -n 1)" >> $GITHUB_OUTPUT

- uses: actions/upload-artifact@v3
if: ${{ !cancelled() }}
with:
name: eudonet_paris_logfile
path: ${{ steps.logfile.outputs.path }}
retention-days: 21
9 changes: 9 additions & 0 deletions Makefile
Original file line number Diff line number Diff line change
Expand Up @@ -86,6 +86,9 @@ dbfixtures: ## Load tests fixtures
redisshell: ## Connect to the Redis container
docker-compose exec redis redis-cli

addok_build: ## Build Addok containers
${_DOCKER_COMPOSE_ADDOK} build --force

addok_start: ## Start Addok containers
${_DOCKER_COMPOSE_ADDOK} up -d

Expand Down Expand Up @@ -268,3 +271,9 @@ scalingo-node-postbuild:
scalingo-postdeploy:
@echo 'Executing migrations...'
${BIN_CONSOLE} doctrine:migrations:migrate --no-interaction

eudonet_paris_import_ci:
make composer CMD="install -n --prefer-dist"
scalingo login --ssh --ssh-identity ~/.ssh/id_rsa
scalingo --app dialog-staging-pr634 db-tunnel -p 10000 DATABASE_URL & ./tools/wait-for-it.sh 127.0.0.1:10000
make console CMD="app:eudonet_paris:import"
6 changes: 3 additions & 3 deletions docker/addok/builder_db.Dockerfile
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
FROM postgis/postgis:14-3.3-alpine
FROM postgis/postgis:14-3.3

RUN apk update
RUN apk add gdal wget unzip p7zip
RUN apt-get update
RUN apt-get install -y gdal-bin wget unzip p7zip

COPY run.sh junctions_json.sql /data/
2 changes: 1 addition & 1 deletion docker/addok/junctions_json.sql
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@
-- See: run.sh
SELECT row_to_json(p) FROM
(
SELECT j.*, c.nom as city, cc.code_postal as postcode
SELECT j.*, c.nom as city, c.code_insee as citycode, cc.code_postal as postcode
FROM (SELECT 'junction_' || st_geohash(st_centroid(unnest(ST_ClusterWithin(st_intersection(r1.geometry, r2.geometry),0.0001)))) as id,
'poi' as type,
'junction' as poi,
Expand Down
20 changes: 7 additions & 13 deletions docker/addok/run.sh
Original file line number Diff line number Diff line change
@@ -1,13 +1,13 @@
#!/bin/bash -e
#!/bin/bash -eu

cd /data
mkdir -p download

# Adapted from: https://gist.github.com/cquest/c0a84e6757d15e66e6ae429e91a74a9e

TEMP_DB=osm_junctions2addok
ADMIN_EXPRESS_URL=https://wxs.ign.fr/x02uy2aiwjo9bm8ce5plwqmr/telechargement/prepackage/ADMINEXPRESS_SHP_WGS84G_PACK_2023-07-04\$ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04/file/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04.7z
CODES_POSTAUX_URL=https://www.data.gouv.fr/fr/datasets/r/5ed9b092-a25d-49e7-bdae-0152797c7577
ADMIN_EXPRESS_URL=https://data.geopf.fr/telechargement/download/ADMIN-EXPRESS/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22.7z
CODES_POSTAUX_URL=https://www.data.gouv.fr/fr/datasets/r/a889d75c-a287-4c8b-a5d4-eba1a7dce648
OSM_DATA_URL=https://download.geofabrik.de/europe/france/ile-de-france-latest-free.shp.zip

function cleanup() {
Expand All @@ -27,8 +27,8 @@ function download() {
fi

echo "-----> Décompression de ADMIN-EXPRESS..."
7z e -aos -odownload download/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04.7z "ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04/ADMIN-EXPRESS/1_DONNEES_LIVRAISON_2023-07-04/ADE_3-2_SHP_WGS84G_FRA/COMMUNE.*"
7z e -aos -odownload download/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04.7z "ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2023-07-04/ADMIN-EXPRESS/1_DONNEES_LIVRAISON_2023-07-04/ADE_3-2_SHP_WGS84G_FRA/ARRONDISSEMENT_MUNICIPAL.*"
7zr e -aos -odownload download/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22.7z "ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22/ADMIN-EXPRESS/1_DONNEES_LIVRAISON_2024-01-00184/ADE_3-2_SHP_WGS84G_FRA-ED2024-01-22/COMMUNE.*"
7zr e -aos -odownload download/ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22.7z "ADMIN-EXPRESS_3-2__SHP_WGS84G_FRA_2024-01-22/ADMIN-EXPRESS/1_DONNEES_LIVRAISON_2024-01-00184/ADE_3-2_SHP_WGS84G_FRA-ED2024-01-22/ARRONDISSEMENT_MUNICIPAL.*"

if [ -z $NO_DOWNLOAD ]; then
echo "-----> Téléchargement du fichier des codes postaux..."
Expand All @@ -53,12 +53,12 @@ function make_junctions_json() {
echo "-----> Import de la classe COMMUNE..."
# Docs on ogr2ogr: https://gdal.org/programs/ogr2ogr.html
# Docs on the 'pgdump' format for ogr2ogr: https://gdal.org/drivers/vector/pgdump.html
ogr2ogr -f pgdump /vsistdout/ download/COMMUNE.shp -nln communes -nlt MULTIPOLYGON --config PG_USE_COPY YES -lco GEOMETRY_NAME=geometry | psql -d $TEMP_DB
ogr2ogr -s_srs EPSG:2154 -t_srs EPSG:4326 -f pgdump /vsistdout/ download/COMMUNE.shp -nln communes -nlt MULTIPOLYGON --config PG_USE_COPY YES -lco GEOMETRY_NAME=geometry | psql -d $TEMP_DB

echo "-----> Import de la classe ARRONDISSEMENT_MUNICIPAL..."
# Docs on ogr2ogr: https://gdal.org/programs/ogr2ogr.html
# Docs on the 'pgdump' format for ogr2ogr: https://gdal.org/drivers/vector/pgdump.html
ogr2ogr -f pgdump /vsistdout/ download/ARRONDISSEMENT_MUNICIPAL.shp -nln arrondissements_municipaux -nlt MULTIPOLYGON --config PG_USE_COPY YES -lco GEOMETRY_NAME=geometry | psql -d $TEMP_DB
ogr2ogr -s_srs EPSG:2154 -t_srs EPSG:4326 -f pgdump /vsistdout/ download/ARRONDISSEMENT_MUNICIPAL.shp -nln arrondissements_municipaux -nlt MULTIPOLYGON --config PG_USE_COPY YES -lco GEOMETRY_NAME=geometry | psql -d $TEMP_DB

###
###
Expand All @@ -67,12 +67,6 @@ function make_junctions_json() {
echo "-----> Préparation de la table codes_communes..."
psql -d $TEMP_DB -c "CREATE TABLE codes_communes (code_insee CHAR(5) PRIMARY KEY, code_postal CHAR(5) NOT NULL);"

echo "-----> Téléchargement du fichier des codes postaux..."
# See: https://www.data.gouv.fr/fr/datasets/base-officielle-des-codes-postaux/
pushd download
wget -N -nv --show-progress https://www.data.gouv.fr/fr/datasets/r/5ed9b092-a25d-49e7-bdae-0152797c7577
popd

echo "-----> Préparation du fichier des codes postaux..."
cat download/019HexaSmal.csv |
# Ne garde que les colonnes code insee et code postal
Expand Down
8 changes: 6 additions & 2 deletions docs/tools/addok.md
Original file line number Diff line number Diff line change
Expand Up @@ -68,6 +68,10 @@ Cette section explique comment recréer le fichier `addok-dialog-bundle.zip` con
* Mise à jour du dump Redis
* Création du bundle ZIP
> **Attention** : votre mot de passe utilisateur sera demandé lors de la mise à jour du dump Redis.
Le résultat sera un nouveau fichier `docker/addok/addok-dialog-bundle.zip`.
L'exécution prend typiquement plusieurs dizaines de minutes en raison de la taille des fichiers à télécharger (plusieurs Go).

Il se peut que le téléchargement des données soit plus rapide en passant par votre navigateur. Vous trouverez les URLs à télécharger dans `docker/addok/run.sh`.
Expand All @@ -78,9 +82,9 @@ Cette section explique comment recréer le fichier `addok-dialog-bundle.zip` con
make addok_bundle NO_DOWNLOAD=1
```

1. Déposez le nouveau bundle dans le dossier partagé DiaLog sur le kDrive (lien sur le pad général).

1. Déposez le nouveau `docker/addok/addok-dialog-bundle.zip` dans le dossier partagé DiaLog sur le kDrive (lien sur le pad général).
1. Mettre à jour l'URL du lien [dialog-addok-bundle] dans la présente doc
1. Suivez les étapes de [mise à jour des données Addok (Eudonet Paris)](./eudonet_paris.md#mise-à-jour-des-données-addok).
## Mettre à jour les données sources
Expand Down
43 changes: 43 additions & 0 deletions docs/tools/eudonet_paris.md
Original file line number Diff line number Diff line change
Expand Up @@ -62,3 +62,46 @@ Notes :
5. Après l'exécution :
* Vérifiez l'exécution en inspectant le fichier `import.prod-*.log` alimenté pendant l'import.
* Commentez les variables dans `.env.prod.local` pour éviter de les réutiliser par mégarde jusqu'au prochain import.
## Déploiement périodique automatique
Les données Eudonet Paris sont automatiquement intégrées en production tous les lundis à 17h00.
Cette automatisation est réalisée au moyen de GitHub Actions (voir [`eudonet_paris_import.yml`](../../workflows/eudonet_paris_import.yml)).
### Accès SSH de GitHub Actions à la base de données sur Scalingo
Cette GitHub Action a besoin d'un accès SSH à la base de données hébergée chez Scalingo.

Pour cela des clés SSH ont été générées comme suit :

```bash
ssh-keygen -t ed25519 -q -N "" -f ~/.ssh/id_dialog_gh_scalingo
```

La clé publique `~/.ssh/id_dialog_gh_scalingo.pub` ainsi générée a été enregistrée sur Scalingo dans la section [Mes clés SSH](https://dashboard.scalingo.com/account/keys) du compte Scalingo professionnel de @florimondmanca.

> 💡 Pour renouveler les clés, ou en cas de perte, de nouvelles clés peuvent être régénérées en utilisant la méthode ci-dessus, puis rattachées au compte de toute personne ayant un accès "Collaborator" sur l'app Scalingo `dialog`.
La clé privée a été ajoutée comme secret `$GH_SCALINGO_SSH_PRIVATE_KEY` au dépôt GitHub et est utilisée par la GitHub Action.
L'accès à la base de données lors de l'import se fait via un [tunnel chiffré Scalingo](https://doc.scalingo.com/platform/databases/access#encrypted-tunnel).
* L'URL de base de données résultant a été ajouté comme secret `$EUDONET_PARIS_IMPORT_DATABASE_URL`.
* La valeur de ce secret doit être la `DATABASE_URL` de production où l'on remplace le `host:port` par `127.0.0.1:10000` afin de pointer sur le DB tunnel Scalingo (le port `10000` est hardcodé dans la GitHub Action).
### Données Addok
L'intégration Eudonet Paris a besoin de faire tourner l'[instance Addok personnalisée](./addok.md) en local.
Il faut donc que la GitHub Action télécharge le fichier ZIP contenant les données (1.6 Go environ) hébergé sur le kDrive de Fairness.
Cela est fait par le script `tools/download_addok_bundle.sh`. Pour cela une clé d'API Infomaniak a été créée par @florimondmanca et enregistrée dans le secret `EUDONET_PARIS_KDRIVE_TOKEN`.

L'identifiant du fichier sur kDrive est stocké dans le secret `EUDONET_PARIS_KDRIVE_FILE_ID`.
#### Mise à jour des données Addok
Si un nouveau bundle Addok est stocké sur le kDrive, récupérer le FileID (visible dans l'URL de partage du fichier) et mettre à jour le secret `EUDONET_PARIS_KDRIVE_FILE_ID`.

Le ZIP est mis en cache après le premier téléchargement.
19 changes: 19 additions & 0 deletions tools/download_addok_bundle.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1,19 @@
#!/bin/bash
set -eux

DRIVE_ID=184671

ARCHIVE_ID=$(
curl -L \
-X POST \
-H "Authorization: Bearer ${EUDONET_PARIS_KDRIVE_TOKEN}" \
-H "Content-Type: application/json" \
-d "{\"file_ids\": [\"${EUDONET_PARIS_KDRIVE_FILE_ID}\"]}" \
"https://api.infomaniak.com/3/drive/${DRIVE_ID}/files/archives" \
| jq --raw-output .data.uuid
)

curl -L \
-H "Authorization: Bearer ${EUDONET_PARIS_KDRIVE_TOKEN}" \
"https://api.infomaniak.com/2/drive/${DRIVE_ID}/files/archives/${ARCHIVE_ID}" \
> $1
Loading

0 comments on commit 5ffd553

Please sign in to comment.