zfs-sync-nfs-ha

Author	SHA1	Message	Date
Tellsanguis	ac085fffb2	Docs: Ajout health checks et système de notifications Apprise All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 15s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 7s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 3s Details Tests et Vérifications / Résumé des tests (push) Successful in 1s Details - Documentation complète des health checks (WWN, triple vérification) - Système de notifications Apprise (90+ services supportés) - Migration automatique avec protection anti-ping-pong - Prérequis python3.13-venv pour Apprise - Mise à jour version 2.3.2 dans structure du dépôt - Ajout config.example dans la structure	2025-12-29 15:29:54 +01:00
Tellsanguis	aa47dd913b	Version 2.3.2: Fix détection UUID disques + priorité WWN All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 15s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 8s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 3s Details Tests et Vérifications / Résumé des tests (push) Successful in 1s Details Corrections majeures: - Fix regex awk pour matcher les liens by-id (../../sda vs sda) - Priorisation WWN (World Wide Name) pour identifiants disques - Fallback ata-/scsi-/nvme- si pas de WWN - Suppression du fallback DEVPATH (inutile pour disques physiques) - Logs warning si aucun identifiant trouvé Impact: - Les pools ne sont plus détectés comme "virtuels" à tort - Health checks des disques physiques maintenant fonctionnels - Identifiants plus stables et cohérents entre nœuds	2025-12-29 14:40:14 +01:00
Tellsanguis	17197618a0	Version 2.3.1: Correction dernier local hors fonction (ligne 1249) All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 15s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 7s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 2s Details Tests et Vérifications / Résumé des tests (push) Successful in 0s Details	2025-12-29 14:18:27 +01:00
Tellsanguis	3a56c5cd9f	Version 2.3.0: Configuration externe + corrections All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 14s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 7s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 3s Details Tests et Vérifications / Résumé des tests (push) Successful in 1s Details - Configuration externe /etc/zfs-nfs-replica/config - Fichier config.example avec exemples Apprise - Plus besoin de modifier le script pour notifications - Amélioration gestion erreurs venv (vérification pip) - Correction bug local hors fonction - Auto-update désactivé par défaut	2025-12-29 14:12:22 +01:00
Tellsanguis	263c1a0556	Version 2.2.0: Health checks sur nœud passif avec notifications All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 14s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 7s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 3s Details Tests et Vérifications / Résumé des tests (push) Successful in 1s Details - Vérification santé pools même sur nœud passif - Notifications en cas de pool dégradé sur passif - Détection proactive avant failover - Pas de migration si nœud passif (juste alerte)	2025-12-29 13:23:06 +01:00
Tellsanguis	d5a0429d2c	Workflow CI/CD finalisé et tests BATS (43/43 tests passent) All checks were successful Tests et Vérifications / Tests unitaires BATS (push) Successful in 15s Details Tests et Vérifications / Vérification ShellCheck (push) Successful in 8s Details Tests et Vérifications / Vérification syntaxe Bash (push) Successful in 3s Details Tests et Vérifications / Résumé des tests (push) Successful in 1s Details - Workflow simplifié: déclenchement main + manuel - Retrait sudo pour compatibilité container Docker - Tests robustes sans dépendance ZFS (43 tests) - Suppression fixtures et uploads inutiles - Création automatique répertoires STATE_DIR	2025-12-29 13:11:37 +01:00
Tellsanguis	e912d39f91	Format workflow comme Homelab (format YAML liste + checkout v4)	2025-12-29 12:44:20 +01:00
Tellsanguis	22878ad608	Merge pull request '2.1' (#2 ) from 2.1 into main Reviewed-on: #2	2025-12-29 11:39:59 +00:00
Tellsanguis	c11f873f02	Utilisation du runner self-hosted au lieu de ubuntu-latest	2025-12-29 12:34:51 +01:00
Tellsanguis	dfa5078b47	Configuration en variables + tests unitaires BATS - Conversion config hardcodée en variables (CLUSTER_NODES) - Détection nœud distant data-driven (extensible à 3+ nœuds) - Tests unitaires BATS avec mocks complets (32 tests) - CI/CD Forgejo avec shellcheck et validation syntaxe - Mode test pour sourcing sans exécution du main	2025-12-29 12:29:46 +01:00
Tellsanguis	de4b630399	Notifications Apprise en venv Python isolé - Virtualenv persistant: /var/lib/zfs-nfs-replica/venv - Installation automatique pip + Apprise au premier lancement - Utilisation de Apprise - Configuration multi-services: APPRISE_URLS (séparées par espaces)	2025-12-29 12:01:25 +01:00
Tellsanguis	f758beeee2	Corrections et améliorations v2.1.0 Corrections critiques : - Bug triple_health_check : fait maintenant 3 vraies tentatives au lieu de s'arrêter au 1er échec - Optimisation get_pool_disk_uuids : ls au lieu de find (gain performance) - Nettoyage logging verbeux dans handle_health_failure Nouveau système de notifications Proxmox : - Mode INFO : toutes les notifications (succès, échecs, migrations) - Mode ERROR : erreurs uniquement (disques, pools dégradés) - Intégration pvesh pour Proxmox VE 8+/9.x - Notifications sur : réplication réussie/échouée, migrations LXC, disques manquants, pools dégradés, espace disque critique Configuration : - NOTIFICATION_ENABLED=true - NOTIFICATION_MODE="INFO" ou "ERROR" - Nécessite configuration notification target dans Proxmox GUI	2025-12-29 11:28:33 +01:00
Tellsanguis	c61661523c	Version 2.1.0: Vérification santé disques et pools ZFS Ajout système de vérification avant réplication : - Détection disques manquants (UUIDs wwn-, ata-, nvme-*) - Vérification état pools (ONLINE/DEGRADED/FAULTED) - Contrôle espace disque (minimum 5%) - Détection erreurs I/O Actions automatiques : - Migration LXC vers nœud sain si défaillance - Arrêt LXC si erreur < 1h (anti-ping-pong) Fichiers d'état : - /var/lib/zfs-nfs-replica/disk-uuids-{pool}.txt - /var/lib/zfs-nfs-replica/critical-errors-{pool}.txt	2025-12-29 11:14:03 +01:00
Tellsanguis	ef3b777800	Version 2.0.1: Configuration Sanoid optimisée pour snapshots fréquents Changements: - Snapshots toutes les 15 minutes (conservés 12 heures) - Snapshots horaires: 48 (conservés 2 jours) - Snapshots quotidiens: 7 (conservés 1 semaine) - Snapshots mensuels/annuels désactivés Configuration Sanoid: - frequently = 48 (15 min × 48 = 12h) - frequent_period = 15 minutes - hourly = 48 (2 jours) - daily = 7 (1 semaine) - monthly = 0 - yearly = 0	2025-11-18 13:52:36 +01:00
Tellsanguis	ceeb68ddc5	Merge pull request 'Version 2.0.0: Support multi-pools avec isolation des erreurs' (#1 ) from multipool_update into main Reviewed-on: #1 Prêt pour la production sur le cluster	2025-11-18 12:41:18 +00:00
Tellsanguis	5f00bf25ee	Version 2.0.0: Support multi-pools avec isolation des erreurs Fonctionnalités principales: - Support de plusieurs pools ZFS simultanément (ZPOOLS array) - Isolation des erreurs: échec d'un pool n'affecte pas les autres - Logs séparés par pool avec rotation automatique (14 jours) - Lockfiles indépendants par pool - Configuration Sanoid générée automatiquement pour tous les pools - Fichiers d'état séparés par pool - Résumé de réplication détaillé Configuration: - Variable ZPOOLS: liste des pools à répliquer - LOG_DIR: répertoire des logs (/var/log/zfs-nfs-replica/) - LOG_RETENTION_DAYS: durée de rétention des logs (14 jours) Changements techniques: - Nouvelle fonction replicate_pool() pour réplication isolée - Fonction init_logging() pour setup des logs et logrotate - configure_sanoid() génère config dynamique pour tous les pools - Logs avec contexte de pool (CURRENT_POOL) Rétrocompatibilité: - Compatible v1.x avec un seul pool: ZPOOLS=("zpool1")	2025-11-18 13:39:16 +01:00
Tellsanguis	464540696b	Version 1.7.0: Configuration dynamique Sanoid actif/passif - Configuration automatique de sanoid.conf selon le role du noeud - Noeud actif: autosnap=yes, autoprune=yes - Noeud passif: autosnap=no, autoprune=yes - Conforme a la documentation officielle Sanoid - Documentation du mount point LXC shared=1 pour la HA	2025-11-16 11:01:07 +01:00
Tellsanguis	9279932f8b	Version 1.6.0: Auto-update + Fix bug réplication multi-datasets Nouvelles fonctionnalités : - Système d'auto-update automatique depuis Forgejo - Vérification à chaque exécution - Sauvegarde de l'ancienne version - Redémarrage automatique après mise à jour - Protection contre les boucles infinies Corrections de bugs : - Fix bug critique: stdin consommé par syncoid dans boucle while - Ajout de "< /dev/null" pour rediriger stdin - Permet maintenant la réplication de tous les datasets - Ajout d'un compteur de datasets traités pour logging Améliorations : - Documentation complète du système d'auto-update dans README.md - Version incrémentée de 1.5.1 à 1.6.0	2025-11-15 18:00:23 +01:00
Tellsanguis	d1c4a46984	Version 1.5.1: Fix bug 'unbound variable' dans les boucles Problème: - Les boucles while avec pipe (\|) s'exécutent dans un sous-shell - SYNCOID_OPTS n'était pas accessible dans le sous-shell (set -u) - Erreur: "SYNCOID_OPTS: unbound variable" Corrections: - Remplacement des pipes par des here-strings (<<<) - Les boucles while s'exécutent maintenant dans le shell principal - Changement de REPLICATION_SUCCESS (string) vers REPLICATION_FAILED (int) - Variables maintenant accessibles dans toutes les boucles	2025-11-14 22:33:35 +01:00
Tellsanguis	7336f86a64	Version 1.5: Réplication des datasets enfants au lieu du pool racine Problème identifié: - Le script tentait de répliquer le pool racine "zpool1" (96K de métadonnées) - Syncoid ne pouvait pas gérer le dataset racine lors de la première sync - Message: "Removing zpool1 because no matching snapshots were found" Solution: - Liste et réplique les datasets de premier niveau uniquement: * zpool1/data-nfs-share * zpool1/pbs-backups - Chaque dataset est répliqué récursivement (inclut tous les enfants) - Le pool racine n'est plus répliqué explicitement Avantages: - Permet la création automatique des datasets sur le nœud distant - Réplication correcte de tous les datasets et snapshots - Gestion individuelle de chaque dataset de premier niveau	2025-11-14 22:26:29 +01:00
Tellsanguis	c220b52bb8	Version 1.4: Retrait de l'option --quiet pour plus de verbosité Changements: - Retrait de --quiet des options syncoid (première sync et incrémentale) - Permet de voir la progression détaillée de la réplication - Utile pour le debugging et le monitoring de la première sync (7.67TB) Options syncoid: - Première sync: --recursive --force-delete - Sync incrémentale: --recursive --no-sync-snap	2025-11-14 22:18:32 +01:00
Tellsanguis	71f6f3962a	Version 1.3: Fix première synchronisation - Options syncoid adaptatives Problème résolu: - L'option --no-sync-snap était utilisée dans tous les cas, empêchant la première synchronisation de fonctionner correctement - Message d'erreur: "Removing zpool1 because no matching snapshots were found" Corrections: - Options syncoid maintenant conditionnelles selon le contexte: * Première sync: --recursive --force-delete --quiet (pas de --no-sync-snap pour permettre création snapshot initial) * Sync incrémentale: --recursive --no-sync-snap --quiet (utilise les snapshots Sanoid existants) Impact: - Permet la synchronisation initiale elitedesk → acemagician - Conserve l'optimisation des syncs incrémentales ultérieures	2025-11-14 22:12:38 +01:00
Tellsanguis	2b7d1c5500	Version 1.2: Détection automatique première sync + double protection anti-écrasement - Détection automatique snapshots en commun (sync incrémentale vs première sync) - Gestion automatique Sanoid (activation/désactivation selon nœud actif) - Protection #1: Comparaison tailles source/destination (ratio >= 50%) - Protection #2: Historique des tailles avec tolérance ±20% - Prévention écrasement accidentel lors remplacement disque - Logs explicites avec actions recommandées en cas de blocage	2025-11-14 19:08:35 +01:00
Tellsanguis	d5c2357487	Version 1.1: Gestion automatique Sanoid selon nœud actif	2025-11-14 18:43:49 +01:00
Tellsanguis	996b5c6c8e	Commit initial : réplication bidirectionnelle ZFS avec NFS HA	2025-11-14 18:06:02 +01:00

25 commits