Comment j'ai mis en place un système de monitoring externe avec Zabbix pour être alerté même si mon cluster Proxmox tombe complètement, en utilisant un proxy local, un serveur VPS distant et une connexion chiffrée PSK.
<!--truncate-->
## Le paradoxe du monitoring : surveiller ce qui vous surveille
Quand on construit un homelab, on installe rapidement un système de monitoring. C'est essentiel : ça permet de garder un œil sur l'utilisation CPU, la RAM, l'espace disque, et d'être alerté avant qu'un service ne plante.
J'utilisais **Beszel** jusqu'à maintenant. Un outil simple, léger, efficace. Parfait pour un homelab. Tout roule.
Sauf qu'il y a un problème.
**Si mon cluster Proxmox tombe, Beszel tombe avec lui.**
Et donc, mes notifications tombent aussi. Je ne serai jamais averti que mes services sont en panne, puisque le système censé me prévenir est lui-même hors service.
### Les scénarios problématiques
Voici quelques scénarios où mon monitoring actuel devient inutile :
- **Panne électrique** : Plus de cluster → Plus de monitoring → Pas d'alerte
- **Crash du nœud principal** : Celui qui héberge Beszel → Silence radio
- **Problème réseau** : Le switch meurt → Impossible de communiquer avec le monitoring
- **Corruption du stockage** : Le Linstor DRBD qui héberge les VMs devient inaccessible → Plus rien ne fonctionne
Dans tous ces cas, je ne suis **jamais notifié**. Je découvre le problème des heures (ou des jours) plus tard, quand j'essaie d'accéder à un service.
Pour un homelab perso, c'est ennuyeux. Pour une infrastructure critique, c'est inacceptable.
## La solution : une approche complémentaire
Plutôt que de remplacer Beszel, j'ai décidé de mettre en place une **architecture complémentaire** :
- **Beszel reste en place** pour le monitoring en temps réel des VMs et LXCs au quotidien. C'est simple, léger, et parfait pour surveiller l'utilisation des ressources en direct.
- **Zabbix vient en complément** pour le monitoring global du cluster Proxmox, l'historique sur le long terme, et surtout les **alertes critiques** (comme la chute complète du cluster).
Cette approche combine le meilleur des deux mondes : la simplicité de Beszel pour le quotidien, et la résilience de Zabbix pour les situations critiques.
### Architecture offsite avec monitoring distribué
Pour résoudre le problème de résilience, j'ai besoin d'une architecture qui respecte trois contraintes :
### 1. Le serveur de monitoring doit être **ailleurs**
Si mon cluster tombe, le serveur de monitoring doit rester opérationnel. La solution : l'héberger sur un **VPS**, complètement indépendant de mon homelab.
Même si toute mon infrastructure domestique tombe, le serveur VPS continue de tourner et peut m'envoyer une alerte.
### 2. Pas de port ouvert sur le homelab
Je ne veux **pas** ouvrir de port en entrée sur mon réseau local. Cela augmente la surface d'attaque et les risques de sécurité.
Je veux une architecture où :
- Le serveur central (VPS) écoute sur un port
- Un **proxy local** (dans mon homelab) collecte les données et les **pousse** vers le serveur
- La connexion est **initiée depuis l'intérieur** (pas d'ouverture de port NAT)
C'est le proxy qui contacte le serveur, pas l'inverse. Comme ça, pas besoin de VPN ni de redirection de ports.
### 3. Communication chiffrée
Les métriques de monitoring peuvent révéler des informations sensibles :
- Combien de serveurs j'ai
- Quels services tournent
- Quand je suis absent (pas d'activité)
Je veux que la communication entre le proxy et le serveur soit **chiffrée de bout en bout**, avec une **Pre-Shared Key (PSK)** pour éviter toute interception ou usurpation d'identité.
## Zabbix : la solution qui coche toutes les cases
Après avoir évalué plusieurs solutions (Prometheus + Grafana, Netdata, InfluxDB + Telegraf), j'ai choisi **Zabbix** pour plusieurs raisons :
- **Architecture proxy native** : Zabbix a été conçu dès le départ pour gérer des proxies qui collectent localement et envoient au serveur central
- **Mode actif/passif** : Le proxy peut pousser (actif) ou être interrogé (passif)
- **Chiffrement PSK intégré** : Pas besoin d'ajouter un tunnel VPN ou un reverse proxy
- **Template Proxmox VE** : Support natif de l'API REST de Proxmox
- **Interface complète** : Dashboards, alertes, notifications, graphiques... tout est inclus
- **Solution mature** : Utilisée en entreprise depuis des années, documentation abondante
Pour générer un mot de passe fort et sécurisé pour votre base de données PostgreSQL, vous pouvez utiliser la commande OpenSSL suivante :
```bash
openssl rand -base64 32
```
Cette commande génère une chaîne aléatoire de 32 octets encodée en base64, ce qui produit un mot de passe de ~44 caractères extrêmement robuste. Remplacez ensuite les valeurs `REPLACEME` dans le fichier `.env` par ce mot de passe généré.
:::
**Points importants** :
- Le réseau `zabbix-tier` est **internal** : la base de données n'est pas accessible depuis l'extérieur
- Le serveur Zabbix expose le port **10051** pour recevoir les données des proxies
- L'interface web est accessible uniquement via **Cloudflare Tunnel** (pas d'IP publique exposée)
**Déploiement** :
```bash
docker compose up -d
```
Après quelques secondes, l'interface Zabbix est accessible. Connexion par défaut : `Admin` / `zabbix` (à changer immédiatement !).
### Étape 2 : Zabbix Proxy dans un LXC
J'ai créé un conteneur LXC Debian 13 sur le cluster Proxmox pour héberger le proxy.
Le rôle **PVEAuditor** permet la lecture seule de toutes les métriques, sans aucun droit de modification.


#### Ajout de l'hôte Proxmox dans Zabbix
**Configuration → Hosts → Create host** :
- **Host name** : `Proxmox-Cluster`
- **Groups** : `Hypervisors`
- **Monitored by proxy** : `Proxy-Homelab`
- **Templates** : lier `Proxmox VE by HTTP`

**Onglet Macros** :
| Macro | Valeur |
|-------|--------|
| `{$PVE.URL.HOST}` | `192.168.100.10` (IP de votre nœud Proxmox) |
| `{$PVE.TOKEN.SECRET}` | Le token secret copié précédemment |

**Quelques minutes plus tard** : toutes les métriques Proxmox arrivent ! CPU, RAM, stockage, nombre de VMs, nombre de LXCs, état du cluster...
## Résultat : un monitoring qui survit à tout
J'ai maintenant une infrastructure de monitoring résiliente :
- **Le serveur Zabbix tourne sur un VPS** : même si tout mon homelab brûle, le monitoring reste actif
- **Le proxy local collecte les données** : il interroge Proxmox, se monitore lui-même, et pousse tout au serveur
- **Connexion chiffrée PSK** : impossible d'intercepter ou d'usurper les communications
- **Pas de port ouvert** : le proxy initie la connexion sortante, aucune ouverture NAT nécessaire
- **Accessible via Cloudflare Tunnel** : pas d'IP publique exposée, accès sécurisé à l'interface web
### Les avantages concrets
**Résilience** :
- Si le cluster tombe → Le serveur VPS m'alerte immédiatement
- Si le VPS tombe → Le proxy continue de collecter et renvoie les données dès le retour du serveur
- Si le réseau homelab tombe → Le serveur VPS détecte l'absence de données et m'alerte
**Sécurité** :
- Pas de port ouvert en entrée sur le homelab
- Chiffrement TLS/PSK de bout en bout
- Accès en lecture seule à l'API Proxmox (PVEAuditor)
- Interface web accessible uniquement via Cloudflare Tunnel
**Simplicité** :
- Installation Docker Compose pour le serveur (3 commandes)
- Installation LXC légère pour le proxy
- Template Proxmox prêt à l'emploi dans Zabbix
- Pas de VPN ni de configuration réseau complexe
## Prochaines étapes
Maintenant que le monitoring est en place, je peux :
- Mettre en place des **notifications** (Discord, Gotify...)
- Ajouter d'autres **agents Zabbix** sur mes VMs et LXCs
- Créer des **dashboards personnalisés** pour avoir une vue d'ensemble
- Monitorer d'autres services (bases de données, serveurs web, etc.)
Si mon cluster tombe en panne, je reçois maintenant une notification immédiate au lieu de découvrir le problème plusieurs heures plus tard.
## Conclusion
Avec cette architecture complémentaire, je bénéficie maintenant du meilleur des deux mondes :
- **Beszel** pour le monitoring quotidien, simple et efficace, avec une vue en temps réel sur mes VMs et LXCs
- **Zabbix** pour le monitoring global du cluster, l'historique sur le long terme, et les alertes critiques qui fonctionnent même si tout mon homelab tombe
Cette approche me permet de garder la simplicité de Beszel au quotidien tout en ayant la résilience d'un monitoring offsite pour les situations critiques.

Si vous avez un homelab, mettre en place un monitoring offsite peut être une bonne solution pour détecter rapidement les problèmes, même en cas de panne complète de votre infrastructure locale.