Docs: Ajout health checks et système de notifications Apprise

- Documentation complète des health checks (WWN, triple vérification) - Système de notifications Apprise (90+ services supportés) - Migration automatique avec protection anti-ping-pong - Prérequis python3.13-venv pour Apprise - Mise à jour version 2.3.2 dans structure du dépôt - Ajout config.example dans la structure
2025-12-29 15:29:54 +01:00 · 2025-12-29 15:29:54 +01:00 · ac085fffb2
commit ac085fffb2
parent aa47dd913b
1 changed files with 63 additions and 2 deletions
--- a/README.md
+++ b/README.md
@ -159,6 +159,57 @@ Le script intègre un système de sécurité à deux niveaux pour éviter la per
 Ces protections garantissent qu'un disque vide ne pourra jamais écraser accidentellement des données existantes.
 ### Health Checks des Disques Physiques
 Le script intègre un système complet de vérification de santé des pools ZFS pour détecter proactivement les défaillances matérielles :
 **Triple vérification de santé** (sur nœud actif et passif) :
 1. **Présence des disques** : Vérifie que tous les disques physiques trackés via leur WWN (World Wide Name) ou identifiant ata-/scsi-/nvme- sont présents
 2. **État du pool** : Contrôle que le pool est ONLINE (pas DEGRADED ou FAULTED)
 3. **Espace libre** : Vérifie que l'espace libre est supérieur au seuil minimum (défaut: 5%)
 4. **Erreurs I/O** : Détecte les erreurs de lecture/écriture/checksum sur les vdevs
 **Tracking des disques** :
 - Les disques sont identifiés par leur **WWN (World Wide Name)** en priorité pour garantir l'unicité
 - Fallback sur les identifiants ata-/scsi-/nvme- si pas de WWN disponible
 - Fichiers d'état : `/var/lib/zfs-nfs-replica/disk-uuids-{pool}.txt`
 - Initialisation automatique au premier run
 **Migration automatique en cas d'erreur critique** :
 - Si un problème matériel est détecté sur le nœud actif, le LXC est automatiquement migré vers le nœud sain
 - **Protection anti-ping-pong** : Cooldown de 1 heure pour éviter les migrations en boucle
 - Notifications envoyées avant et après migration
 ### Système de Notifications via Apprise
 Le script intègre [Apprise](https://github.com/caronc/apprise) pour envoyer des notifications sur 90+ services différents :
 **Services supportés** (exemples) :
 - Discord, Telegram, Slack
 - Gotify, Ntfy, Pushover
 - Email (SMTP, Gmail, etc.)
 - SMS (Twilio, AWS SNS, etc.)
 - Et beaucoup d'autres...
 **Configuration** :
 - Fichier de configuration externe : `/etc/zfs-nfs-replica/config`
 - Exemple fourni : `config.example`
 - Les paramètres persistent entre les mises à jour du script
 **Modes de notification** :
 - **INFO** : Toutes les notifications (démarrages, succès, erreurs)
 - **ERROR** : Uniquement les erreurs critiques
 **Types de notifications** :
 - Réplication réussie (mode INFO uniquement)
 - Pool dégradé détecté
 - Disque(s) manquant(s)
 - Migration automatique du LXC déclenchée
 - Échec de réplication
 **Installation** :
 Apprise s'installe automatiquement dans un environnement Python virtuel isolé lors de la première exécution.
 ## Fonctionnalités
 - **Mise à jour automatique** : Le script vérifie et installe automatiquement les nouvelles versions depuis le dépôt Forgejo avant chaque exécution
@ -166,6 +217,9 @@ Ces protections garantissent qu'un disque vide ne pourra jamais écraser acciden
 - **Détection automatique première sync/incrémentale** : Bascule automatiquement entre mode initial et mode incrémental
 - **Configuration dynamique de Sanoid** : Configure automatiquement Sanoid en mode actif ou passif selon le rôle du nœud, conformément aux recommandations de la documentation officielle
 - **Double protection anti-écrasement** : Vérifications de cohérence des tailles et historique pour prévenir toute perte de données
 - **Health checks des disques physiques** : Triple vérification de santé des pools ZFS avec détection des disques manquants, pools dégradés, erreurs I/O et espace libre insuffisant
 - **Notifications intelligentes via Apprise** : Système de notifications universel supportant 90+ services (Discord, Telegram, Gotify, Email, etc.) avec modes INFO et ERROR
 - **Migration automatique en cas de défaillance** : Détecte les problèmes matériels critiques et migre automatiquement le LXC vers le nœud sain avec protection anti-ping-pong
 - **Synchronisation récursive du pool** : Tous les datasets sous `zpool1` sont automatiquement inclus
 - **Contrôle de concurrence par verrou** : Empêche les tâches de réplication simultanées
 - **Gestion d'erreurs complète** : Valide la connectivité SSH, l'existence du pool et les opérations ZFS
@ -178,9 +232,10 @@ Ces protections garantissent qu'un disque vide ne pourra jamais écraser acciden
 ```
 .
 ├── README.md                    # Ce fichier
-├── zfs-nfs-replica.sh           # Script principal de réplication (version 1.7.0)
+├── zfs-nfs-replica.sh           # Script principal de réplication (version 2.3.2)
 ├── zfs-nfs-replica.service      # Définition du service systemd
-└── zfs-nfs-replica.timer        # Configuration du timer systemd
+├── zfs-nfs-replica.timer        # Configuration du timer systemd
 └── config.example               # Exemple de configuration pour les notifications
 ```
 ### Système de Mise à Jour Automatique
@ -264,6 +319,12 @@ ha-manager migrate ct:103 elitedesk
  mp0: /zpool1/data-nfs-share,mp=/data-nfs-share,shared=1
  ```
 - Sanoid/Syncoid installés depuis le dépôt officiel Sanoid
 - **Python 3.13+ avec venv** : Requis pour le système de notifications Apprise
  ```bash
  # Sur Debian/Proxmox
  apt install python3.13-venv
  # Ou version plus récente selon votre distribution
  ```
 - Paire de clés SSH dédiée pour la réplication
 - Conteneur LXC avec rootfs sur LINSTOR/DRBD
 - Configuration Proxmox HA avec paramètres de priorité appropriés