Gestione degli errori di nodo di cluster (Geo)

Scenario:

Tre cluster di nodes (non condiviso) su Windows Server 2012. Due nodes nel data center primario, entrambi con voti (peso nodo = 1) e una condivisione di file condividono. Il terzo nodo si trova in un centro dati remoto e non ha voti (peso nodo di 0).

  • Migrazione da Server 2003 R2 utilizzando IIS1 e FrontPage a Server 2012 utilizzando IIS8
  • Jenkins Slave va in linea durante la costruzione
  • Gli utenti improvvisamente mancano le autorizzazioni di scrittura all'unità principale c all'interno di un dominio di directory attivo
  • Accesso con account amministratore locale dopo l'accesso al dominio
  • Come posso impostare (inizializzare, partizionare e formattare) un disco utilizzando Powershell?
  • Impostare DPM per utilizzare il fornitore hardware VSS con EMC Clariion SAN
  • Problema: un nodo di cluster (che ha posseduto il nome del cluster) è sceso per gli aggiornamenti automatici. Il nome del cluster non è riuscito al nodo del centro dati remoto e il nodo remoto è stato in grado di get una chiusura sul file di condivisione di file condiviso. A quel punto, il nostro tunnel VPN è sceso. Il singolo nodo che era presente nel centro dati primario (e aveva servizi in esecuzione) notò che il nodo del cluster remoto era in discesa e tentava di portre il nome del cluster in linea. Il file di testimonianza condivisa di file era ancora bloccato dal nodo remoto e il nodo del cluster in esecuzione visibile nel centro dati primario non è riuscito a riportre il nome del cluster in linea e chiude il servizio cluster su se stesso.

    Avvertenze: Il firewall della condivisione di file dal nodo remoto non è un'opzione a causa di altri processi che lo utilizzano.

    Ho considerato di aver tentato di rimuovere il nodo del cluster remoto da possibili proprietari del nome del cluster, ma non l'ho ancora fatto o provato prima e non voglio far saltare in aria il cluster di produzione. È ansible rimuovere un nodo di cluster da possibili proprietari per il nome del cluster? Se dobbiamo fallire i nostri servizi nel centro dati remoto, ci sono un certo numero di pezzi in movimento che devono essere coordinati, quindi non voglio eseguire il failover "automatizzato" del servizio al centro dati remoto. Il motivo per cui il nodo remoto è in un cluster a tutti è per i gruppi di disponibilità di SQL Server, per gestire la replica nel nodo remoto.

    Ho anche considerato di eliminare la condivisione di file e di dare un voto al nodo remoto. Il nuovo quorum dinamico "dovrebbe" mantenere il cluster in linea se un nodo scende per una riavvisi e la connettività di networking viene persa al centro dati remoto.

    Dato il mio scenario, quale opzione (o altre alternative) mi darà la massima disponibilità.

  • Il cluster di failover del server di destinazione Microsoft iSCSI di Microsoft non funziona in Server Manager dopo il trasferimento dei ruoli
  • Come funziona il clustering di failover in Windows 2008 R2?
  • Come faccio a sapere a quale nodo del mio Oracle RAC sono connessi?
  • Cluster di failover: Microsoft Exchange Server 2010
  • Aggiunta di una condivisione in un cluster di failover con quote triggerste richiede 10 minuti
  • Windows Server 2012 - Hyper-V - iSCSI SAN - Tutti i client Hyper-V smettono di rispondere e di un ampio disco read / write
  • 2 Solutions collect form web for “Gestione degli errori di nodo di cluster (Geo)”

    In realtà mi piace dare un voto al nodo remoto perché renderebbe molto più facili i failover pianificati. Potresti migrare i database e le risorse al datacenter remoto, poi chiudere gradualmente i nodes nel datacenter primario e non dovresti scimmia con il voto per farlo funzionare. Inoltre, non sei preoccupato per l'alta disponibilità della condivisione di file.

    Quindi sono qui con Brent. Non sono mai stato un fan di rimuovere un nodo come elettore, a less che tu non sia assolutamente al 100% sicuro che non ti interessa. L'unica cosa che dovresti cercare di fare è mantenere il gruppo di cluster WSFC in cui la replica principale è quella di evitare di evitare il cervello diviso.

    Rimuovere il nodo del cluster come un ansible proprietario dalla WSFC è una ctriggers idea. Se wherete farlo, espellere il nodo dal cluster. Cattivo, cattivo mojo.

    Con Windows Server 2012 hai anche un quorum dinamico e, a less che i tuoi guasti non siano tutti simultanei, puoi abbastanza scendere all'ultimo uomo in piedi (con avvertenze, ovviamente).

    Inoltre, risolverei tutti i problemi di networking. Saranno assassini in una situazione geograficamente dispersa come si può dire.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.