Collegamenti in rame 10Gb instabili, tabs Broadcom e Intel agli switch Cisco 4900M

Abbiamo acquistato alcuni server Dell PowerEdge R730 con tabs PCI Express QLogic / Broadcom BCM57810 e collegarle a switch Cisco 4900M – i collegamenti 10Gb non funzionano in modo affidabile. A volte non si connettono, a volte si collegano dopo qualche minuto, e quando si collegano, cadono più volte al giorno. Le disconnessioni possono durare 4 minuti o 2 ore.

Gli switch Cisco dispongono di collegamenti in rame da 10Gb a Dell PowerVault SAN, stabili e funzionanti da molti mesi.

  • ESXi 4.1 VM è andato dopo il riavvio duro
  • Come distriggersre le macchine virtuali VMware va a "dormire" se non c'è attività?
  • Come si assicura che VMware Tools sia installato e in esecuzione?
  • Riavviare ESXi da remoto mentre avendo un PSOD
  • In VMware ESXi 5.x, fa la differenza se seleziono 2 core CPU vs 2 socket CPU?
  • Qual è il miglior design (software / hardware, backup) per due server che forniscono macchine virtuali in colo
  • Vedo le disconnette nei registri di VMware come messaggi come:

    bnx2x 0000:82:00.1: vmnic5: NIC Link is Down 

    e

      network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down. 

    Non riesco a vedere codici di errore utili o messaggi precedenti, solo i messaggi causati dal link scendono. Su Windows si presenta come una scheda scollegata, e sull'interruttore si presenta come port switch disconnesso.

    Quando i collegamenti si collegano, funzionano – jumbo frame ping ping, stabiliscono le sessioni iSCSI, i datastores vengono visualizzati con tutti i routes trovati. Ma le connessioni sono intermittenti.

    Abbiamo verificato:

    • I cavi:
      • originariamente Cat5e singolo cavo, ora Cat6 cablaggio strutturato. La lunghezza totale del cavo è <7m.
      • Collegato con un nuovo cavo, ospita l'interruttore senza patch / giunti e nessun altro cavo vicino.
    • I driver / sistema operativo:
      • Inizialmente la build di VMware ESXi 5.5 U2 ("ESXi 5.5.0, 2068190") con la versione del driver bnx2x 2.710.39.v55.2
      • Quindi il driver aggiornato da vmware.com, bnx2x versione 2.710.70.v50.7
      • Poi ESXi 6.0, Dell build ("ESXi 6.0.0 2494585") che ha la versione bnx2x 2.712 …
      • Poi Windows Server 2012 R2 con il driver più recente dal sito di Dell.
    • Il firmware della scheda di networking QLogic / Broadcom; è l'ultimo di Dell, FFv7.12.17.
    • La configuration della port switch, è semplicemente mtu 9000 e l' switchport access vlan NNN
    • Le porte di commutazione
      • Questi sono moduli RJ45 a 8 porte 10Gb (WS-X4908-10G-RJ45), uno per interruttore. Le SAN occupano le prime quattro porte di ciascun module, i nuovi server occupano le altre quattro porte di ciascun module. Ciò sembra interessare tutte le porte che utilizziamo per i nuovi server. Quindi non è una port fallita o un module fallito.
      • Non ho provato a interrompere le connessioni SAN per testare quelle porte, senza alcuna ragione specifica per pensare che le porte 1-4 siano più affidabili di 5-8 che sarebbe un'ultima soluzione.
    • I contatori dell'interface switch, senza errori oltre a disconnettere.
    • Distriggerszione di diverse funzionalità di disconnessione nel driver QLogic / Broadcom di Windows e triggerszione di EnergyEfficientEthernet, forzando le tabs a 10Gb anziché autodetekt.
    • Collegando gli stessi host agli stessi switch in porte 1Gb, che sembra funzionare bene, si collegano ripetutamente rapidamente.
    • Incrociando due host, si collegano rapidamente a 10Gb e mantengono una connessione stabile per giorni.
    • Abbiamo comprato una scheda Intel X540-t2 e lo abbiamo provato. Si comport lo stesso.
    • Da allora abbiamo acquistato i cavi Patch Cat 6a e abbiamo provato quelli, senza modifiche.

    Abbiamo sollevato una chiamata con il supporto di Dell, non abbiamo trovato niente di sbagliato e suggeriamo che gli interruttori siano in errore, ma quando i switch eseguono connessioni in rame da 10Gb a Dell PowerVault Storage e per quanto posso dirlo dai nostri log di monitoraggio degli switch e dalla SAN i registri di events, i collegamenti non cadono, non sono disposto a pensare che gli switch Cisco siano il problema.

    Essi sono in esecuzione IOS 15.1 (1) SG2 che non è l'ultima, ma gli interruttori sono vivi e stabili, non voglio cambiare casualmente il firmware "solo nel caso".

    Ciò avviene su più server, più tabs di networking, più marche di scheda di networking, più versioni del driver, più switch. Non può essere un singolo pezzo di hardware difettoso. Tutto in un rack con aria condizionata e potenza.

    Questa è la prima volta che abbiamo provato l'host VMware per passare le connessioni a 10Gb, quindi non abbiamo altre configurazioni che possiamo confrontare o hardware con cui possiamo connettersi.

    Che altro possiamo controllare?

    Modifica : stavamo cercando di aggiornare il firmware dell'interruttore, ma ho appena trovato un collegamento correlato – questo sembra essere un problema noto tra il module Cisco WS-X4908-10G-RJ45 e le tabs Broadcom BCM57810, dipendenti dalla versione IOS – https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay che ha molte discussioni pertinenti e port a:

    https://tools.cisco.com/bugsearch/bug/CSCug68370

    Problema di integerperabilità WS-X4908-10G-RJ45 e Broadcom 57810S 10Gb BASE-T

    CSCug68370

    Descrizione

    Sintomo: porte BaseT 10Gbps (su WS-X4908-10G-RJ45) collegate a server Dell 820 con Broadcom 57810S DP 10Gb BASE-T. In caso di ricarica dell'interruttore o rimozione / reinstallazione delle porte dei cavi si verifica dopo un lungo periodo (fino ad un'ora) o non si verifica affatto. Condizioni: 1) Modulo WS-X4908-10G-RJ45 2) Versioni 15.0 (2) SG tramite 15.0 (2) SG7, 15.1 (2) SG tramite 15.1 (2) SG3 Soluzione alternativa: riduzione a 12.2 (54) SG

    Questo non è esattamente lo stesso model di server, e non menziona le tabs Intel, ma il problema è un bel match-on match.

  • Ci sono soluzioni che possono combinare ethernet gigabit, ethernet 10gig e canale fibra in un singolo dispositivo?
  • 10Gb ISCSI alla port del server 1Gb
  • Qual è la frequenza di clock all'interno di tabs Ethernet da 10Gb e 100Gb?
  • Perché scegliere Copper over SFP + per 10GbE?
  • Come get più connessioni NFS / TCP allo stesso server?
  • Qual è il command per abilitare i ricetrasmettitori SFP + di terze parti sull'interruttore Arista?
  • 2 Solutions collect form web for “Collegamenti in rame 10Gb instabili, tabs Broadcom e Intel agli switch Cisco 4900M”

    Aggiorna i tuoi host ESXi. Questa è l'unica cosa che hai davvero perso nelle fasi di risoluzione dei problemi.

    L'installazione è di quasi un anno!

    A partire da questa scrittura, la versione corrente di ESXi 5.5 è 2718055 . Il numero di build di ESXi 6.0 attuale è 2809209 .

    Dell, HP, non import … dovresti ancora aggiornare le installazioni ESXi. Molte persone lo trascurano , ed è la seconda causa più spesso di inattività involontaria negli ambienti che vedo.

    Beh, sembra che si tratti di un bug di Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 e che l'aggiornamento a una delle versioni "conosciute" di IOS (15.1 (2) SG4) sembra averla risolta.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.