Controlli hardware per i server Dell R820 tramite Nagios utilizzando SNMP

Usiamo Nagios per il monitoraggio. C'è un modo per creare controlli hardware utilizzando SNMP MIB per i server R820 che eseguono ESXi5.x su di essi? Adesso stiamo usando questo plugin python:

plugin attuale di python

  • Slowess estrema inspiegabile su Dell PowerEdge R320, riparata solo dal riavvio a freddo
  • Come colbind due arrays di storage Dell a un server Dell Poweredge (catena di margherita vs diretta)?
  • Pro / contro di NRPE e SNMP con Nagios 3?
  • Sostituzione della scheda di sistema HP P4500 G2
  • Qual è il giusto controller RAID per il mio server Dell?
  • Monitoraggio VMware ESXi (gratuito) vs vSphere
  • Ma possiamo non utilizzare più a causa di politiche di sicurezza all'interno dell'org. Siamo soddisfatti dell'output del plugin corrente, quindi sarebbe bello se potessimo utilizzare un agente simile less controllare utilizzando SNMP. Grazie

  • Salvare gli indicatori blu Dell PowerEdge
  • Problemi con il mio 2970 poweredge
  • Quali tipi di cavi SAS / SATA utilizzano le tabs controller SAS6 / iR e SAS5 / iR?
  • Come colbind due arrays di storage Dell a un server Dell Poweredge (catena di margherita vs diretta)?
  • Qual è la massima temperatura SMART normale per le unità enterprise HGT Helium Ultrastar 8TB 7200 RPM SAS 12Gb / s?
  • Errore di disco logico Dell PowerEdge 2800: qualsiasi ripristino ansible?
  • 4 Solutions collect form web for “Controlli hardware per i server Dell R820 tramite Nagios utilizzando SNMP”

    Forse sono strano, ma preferisco monitorare i miei host ESXi in un cluster di vSphere tramite l'interface SNMP di vCenter ( accoppiata con l'email per certi events ). Quello copre la maggior parte di quello che mi serve. Così sta avvertendo gli events contro il polling dell'hardware attraverso qualcosa come Nagios.

    Puoi chiarire quali elementi specifici sono più interessati a monitorare a livello host?

    Credo che le trappole di vSphere e gli avvisi di posta elettronica possono essere granulari come si desidera …

    immettere qui la descrizione dell'immagine

    No. VMware ha scelto di passare il path CIM invece di SNMP, quindi non puoi fare esattamente quello che hai chiesto. L'unico supporto SNMP che hanno implementato è l'invio di trappole, che era molto buggy l'ultima volta che l'ho provato (certo qualche anno fa).

    Due buone opzioni sono già state discusse qui ( check_esxi_hardware.py , il check-esx-plugin OP5).

    Come è probabilmente consapevole, Nagios Exchange è pieno di tentativi di altre persone per risolvere questo problema , ma la maggior parte di essi è obsoleta e non functionrà con i prodotti VMware moderni.

    Per quanto riguarda il problema dell'accesso alla radice, il plugin python utilizzato per funzionare senza accesso alla radice oltre il livello radice dell'tree CIM (ad esempio, non ereditato giù per i VM stessi), ma sembra che non sia più il caso del 5.1. Potresti probabilmente creare un ruolo speciale per Nagios da utilizzare (che non è il ruolo dell'amministratore), però.

    A giudicare dai commenti che hai fatto in precedenza (su come richiedere un monitoraggio dello stato hardware più dettagliato), potrebbe essere meglio servito da un controllo IPMI tramite il processre di servizio (BMC, LOM, iLO, qualunque cosa si desideri call) in quel caso.

    Se si tratta specificamente dell'hardware Dell, è ansible aggiungere il pacchetto offline specifico Dell (VIB) per triggersre il supporto OpenManage in ESXi.

    In futuro, potresti utilizzare l'ottimo plugin check_openmanage per questo, ma non è attualmente ansible.

    utilizziamo il plug-in check_esx da op5 ( http://www.op5.org/community/plugin-inventory/op5-projects/check-esx-plugin ) esattamente per questa purpurea. È necessario installare il vmware perl sdk.

    Lo usiamo così:

    check_esx -H $HOSTADDRESS$ -u root -p passwd -l runtime -s health CHECK_ESX.PL OK - All 449 health checks are Green | Alerts=0;; 

    Il plugin check_esx può monitorare un sacco di cose, grande lavoro dai ragazzi op5.

    Il problema con check_esxi_hardware e un utente di ruolo di sola lettura o non amministratore (non root) è dovuto a una funzionalità PAM o bug in ESXi 5.1 e successivi a seconda del tuo punto di vista.

    Qualsiasi utente creato e assegnato a qualsiasi ruolo diverso dal ruolo dell'amministratore è impostato su negato ALL in /etc/security/access.conf. Anche se clonare il ruolo di amministratore e assegnare l'utente creato a questo ruolo di clone, verrà impostato a negare ALL in /etc/security/access.conf.

    Ho creato un utente "nagios" su un host ESXi 5.5 localmente (non tramite vCenter) e assegnato al ruolo "Solo lettura" nella scheda autorizzazioni. Di default le sue autorizzazioni in access.conf sono "-: nagios: ALL"

    Se ssh al host ESXi e modificare /etc/security/access.conf e modificare le autorizzazioni utente nagios a "+: nagios: sfcb" o "+: nagios: ALL", allora check_esxi_hardware funziona.

    L'utilizzo di "+: nagios: sfcb" limita l'utente "nagios" in modo da poter accedere solo al servizio CIM.

    Il problema che incontri ora è che le modifiche a /etc/security/access.conf non sono persistenti in tutti i riavvoti.

    Questo è un thread nelle comunità VMware che discute questo problema: https://communities.vmware.com/thread/464552?start=15&tstart=0

    Questo è un ottimo articolo che discute lo stesso problema usando wbem: https://alpacapowered.wordpress.com/2013/09/27/configuring-and-securing-local-esxi-users-for-hardware-monitoring-via-wbem /

    Questi sono due blog che discutono di fare cambiamenti persistenti su riavvii in ESXi:

    http://www.therefinedgeek.com.au/index.php/2012/02/01/enabling-ssh-access-in-esxi-5-0-for-non-root-users/

    http://www.virtuallyghetto.com/2011/08/how-to-persist-configuration-changes-in.html

    Non posso fare i collegamenti ipertestuali degli ultimi due collegamenti poiché questo è il mio primo post su serverfault e finché non hai 10 punti di reputazione puoi solo mettere due link in una risposta (che è giusta).

    Non ho deciso quale soluzione utilizzerò per rendere questo persistente attraverso riavvii. Sto ancora provando.

    Grazie

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.