Ubuntu 16.04 – arrays mdadm congelato

Ho avuto una matrix di lavoro RAID5 composta da 6 dischi 4TB. Smartd ha riferito che uno dei dischi ha iniziato a fallire. Ho deciso di fare parecchie cose in un'operazione: 1) rimuovere il disco danneggiato 2) aggiungere uno nuovo per sostituirlo 3) aggiungere un paio di altri dischi all'arrays e crescerlo

Dal momento che avevo solo dischi più piccoli per (3) ho usato LVM per unire dischi più piccoli in volumi che erano più grandi di 4TB

  • Nginx Ubuntu Postfix Config - Imansible connettersi al server server IMAP in arrivo che non risponde 'ma può submit la posta in output utilizzando gli stessi dettagli?
  • Portmap e NFS4
  • perché è apt-get installare qualcosa sta chiedendo di aggiornare nginx.conf? Come risolvere questo problema utilizzando lo chef?
  • Errore durante l'installazione del server rabbitMQ su Ubuntu 10.10
  • Come faccio a chiedere ad apt-get per ignorare i passaggi di configuration interattivi post-installazione?
  • Il crypteq di Exim4 con la ricerca di MySQL non riesce mai
  • Ecco la sequenza di quello che ho corso:

    1) vgcreate vg_sdi_sdj /dev/sdi1 /dev/sdj1 2) vgcreate vg_sdj_sdl /dev/sdk1 /dev/sdl1 3) lvcreate -l 100%FREE -n all vg_sdi_sdj 4) lvcreate -l 100%FREE -n all vg_sdk_sdl 5) mdadm --manage /dev/md1 --add /dev/sdg1 6) mdadm --manage /dev/md1 --add /dev/vg_sdi_sdj/all 7) mdadm --manage /dev/md1 --add /dev/vg_sdk_sdl/all 8) mdadm --manage /dev/md1 --fail /dev/sdc1 9) mdadm --grow --raid-devices=8 --backup-file=/home/andrei/grow_md1.bak /dev/md1 

    All'inizio tutto stava andando quasi senza problemi. Array ha iniziato la ricostruzione. L'unica stranezza era che il file di backup non fosse stato creato. io stavo correndo

     watch -n 1 mdadm --detail /dev/md1 nmon 

    in background per tenere d'occhio le cose. Durante la ricostruzione ho potuto accedere alla matrix.

    Tuttavia il 9% nel process, tutti gli I / O dell'arrays sono stati interrotti tranne il 100% di letture su / dev / sdb e / dev / sdb1. Una volta che ho ucciso guardare -n 1 mdadm, che si fermò troppo.

    Ecco l'output recente di mdadm –detail:

     /dev/md1: Version : 1.2 Creation Time : Sun Jan 8 22:16:01 2017 Raid Level : raid5 Array Size : 19534430720 (18629.49 GiB 20003.26 GB) Used Dev Size : 3906886144 (3725.90 GiB 4000.65 GB) Raid Devices : 8 Total Devices : 8 Persistence : Superblock is persistent Intent Bitmap : Internal Update Time : Sun Jan 15 21:38:17 2017 State : clean, degraded, reshaping Active Devices : 7 Working Devices : 8 Failed Devices : 0 Spare Devices : 1 Layout : left-symmetric Chunk Size : 512K Reshape Status : 9% complete Delta Devices : 2, (6->8) Name : server:1 (local to host server) UUID : bec66f95:2975e7ae:8f8ba15c:8eb3a33f Events : 79504 Number Major Minor RaidDevice State 0 8 17 0 active sync /dev/sdb1 9 252 0 1 spare rebuilding /dev/dm-0 2 8 49 2 active sync /dev/sdd1 3 8 145 3 active sync /dev/sdj1 4 8 161 4 active sync /dev/sdk1 6 8 177 5 active sync /dev/sdl1 8 252 1 6 active sync /dev/dm-1 7 8 129 7 active sync /dev/sdi1 

    Non ho potuto fare alcun I / O sull'arrays. L'esecuzione di htop ha mostrato che un core della CPU è fissato al 100% per operazioni di I / O.

    Ho riavviato la macchina. Array non è riassemblato. Ho riassemblato manualmente eseguendo:

     mdadm --assemble /dev/md1 --force /dev/sdb1 /dev/sdd1 /dev/sdi1 /dev/sdj1 /dev/sdk1 /dev/sdl1 /dev/vg_sdi_sdj/all /dev/vg_sdk_sdl/all 

    (dopo che i dischi di riavvio hanno cambiato nomi). Tuttavia lvm trovava correttamente volumi e gruppi e li ha portti.

    Senza forza non avrebbe giocato a palla. Ha assemblato e mostrato la relazione del quotidiano citata sopra.

    Tuttavia comunque non consentirebbe alcun command di I / O in modo da bloccare (I singolo disco LVM lì e il filesystem ext4 all'interno). htop ha anche mostrato un nucleo CPU dotato di I / O.

    Tuttavia nessuno dei LED di attività del disco è acceso.

    Al momento sono bloccato con un arrays non funzionale che ha una buona quantità di dati in esso. Idealmente vorrei recuperare i dati.

    Forse utilizzando i volumi logici LVM come "dischi" mdadm era un errore. Anche se non ho trovato informazioni che indicano che non functionrebbe.

    Vorrei davvero apprezzare each consiglio e puntatori su come recuperare la mia matrix.

    Uno sguardo più vicino a journalctl -xe ha rivelato quanto segue:

     Jan 15 22:41:15 server sudo[1612]: andrei : TTY=tty1 ; PWD=/home/andrei ; USER=root ; COMMAND=/sbin/mdadm --assemble /dev/md1 --force /dev/sdb1 /dev/sdd1 /dev/sde1 /dev/sdf1 /dev/sdg1 /dev/sdh1 /dev/vg_sdi_sdj/all /dev/vg_sdk_sdl/all Jan 15 22:41:15 server sudo[1612]: pam_unix(sudo:session): session opened for user root by andrei(uid=0) Jan 15 22:41:15 server kernel: md: md1 stopped. Jan 15 22:41:15 server kernel: md: bind<dm-1> Jan 15 22:41:15 server kernel: md: bind<sdd1> Jan 15 22:41:15 server kernel: md: bind<sdg1> Jan 15 22:41:15 server kernel: md: bind<sdh1> Jan 15 22:41:15 server kernel: md: bind<sdf1> Jan 15 22:41:15 server kernel: md: bind<dm-0> Jan 15 22:41:15 server kernel: md: bind<sde1> Jan 15 22:41:15 server kernel: md: bind<sdb1> Jan 15 22:41:15 server mdadm[879]: NewArray event detected on md device /dev/md1 Jan 15 22:41:15 server mdadm[879]: DegradedArray event detected on md device /dev/md1 Jan 15 22:41:15 server kernel: md/raid:md1: reshape will continue Jan 15 22:41:15 server kernel: md/raid:md1: device sdb1 operational as raid disk 0 Jan 15 22:41:15 server kernel: md/raid:md1: device sde1 operational as raid disk 7 Jan 15 22:41:15 server kernel: md/raid:md1: device dm-0 operational as raid disk 6 Jan 15 22:41:15 server kernel: md/raid:md1: device sdf1 operational as raid disk 5 Jan 15 22:41:15 server kernel: md/raid:md1: device sdh1 operational as raid disk 4 Jan 15 22:41:15 server kernel: md/raid:md1: device sdg1 operational as raid disk 3 Jan 15 22:41:15 server kernel: md/raid:md1: device sdd1 operational as raid disk 2 Jan 15 22:41:15 server kernel: md/raid:md1: allocated 8606kB Jan 15 22:41:15 server kernel: md/raid:md1: raid level 5 active with 7 out of 8 devices, algorithm 2 Jan 15 22:41:15 server kernel: RAID conf printout: Jan 15 22:41:15 server kernel: --- level:5 rd:8 wd:7 Jan 15 22:41:15 server kernel: disk 0, o:1, dev:sdb1 Jan 15 22:41:15 server kernel: disk 1, o:1, dev:dm-1 Jan 15 22:41:15 server kernel: disk 2, o:1, dev:sdd1 Jan 15 22:41:15 server kernel: disk 3, o:1, dev:sdg1 Jan 15 22:41:15 server kernel: disk 4, o:1, dev:sdh1 Jan 15 22:41:15 server kernel: disk 5, o:1, dev:sdf1 Jan 15 22:41:15 server kernel: disk 6, o:1, dev:dm-0 Jan 15 22:41:15 server kernel: disk 7, o:1, dev:sde1 Jan 15 22:41:15 server kernel: created bitmap (30 pages) for device md1 Jan 15 22:41:15 server kernel: md1: bitmap initialized from disk: read 2 pages, set 7 of 59615 bits Jan 15 22:41:16 server kernel: md1: detected capacity change from 0 to 20003257057280 Jan 15 22:41:16 server kernel: md: reshape of RAID arrays md1 Jan 15 22:41:16 server kernel: md: minimum _guaranteed_ speed: 1000 KB/sec/disk. Jan 15 22:41:16 server kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reshape. Jan 15 22:41:16 server kernel: md: using 128k window, over a total of 3906886144k. Jan 15 22:41:16 server mdadm[879]: RebuildStarted event detected on md device /dev/md1 Jan 15 22:41:16 server sudo[1612]: pam_unix(sudo:session): session closed for user root Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589312 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589320 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589328 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589336 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589344 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589352 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589360 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589368 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759589376 on sdf1) Jan 15 22:41:23 server kernel: md/raid:md1: read error corrected (8 sectors at 759582288 on sdf1) ... Jan 15 22:43:36 server kernel: INFO: task md1_reshape:1637 blocked for more than 120 seconds. Jan 15 22:43:36 server kernel: Not tainted 4.4.0-59-generic #80-Ubuntu Jan 15 22:43:36 server kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. Jan 15 22:43:36 server kernel: md1_reshape D ffff88021028bb68 0 1637 2 0x00000000 Jan 15 22:43:36 server kernel: ffff88021028bb68 ffff88021028bb80 ffffffff81e11500 ffff88020f5e8e00 Jan 15 22:43:36 server kernel: ffff88021028c000 ffff8800c6993288 ffff88021028bbe8 ffff88021028bd14 Jan 15 22:43:36 server kernel: ffff8800c6993000 ffff88021028bb80 ffffffff818343f5 ffff8802144c7000 Jan 15 22:43:36 server kernel: Call Trace: Jan 15 22:43:36 server kernel: [<ffffffff818343f5>] schedule+0x35/0x80 Jan 15 22:43:36 server kernel: [<ffffffffc01d2fec>] reshape_request+0x7fc/0x950 [raid456] Jan 15 22:43:36 server kernel: [<ffffffff810c4240>] ? wake_atomic_t_function+0x60/0x60 Jan 15 22:43:36 server kernel: [<ffffffffc01d346b>] sync_request+0x32b/0x3b0 [raid456] Jan 15 22:43:36 server kernel: [<ffffffff81833d46>] ? __schedule+0x3b6/0xa30 Jan 15 22:43:36 server kernel: [<ffffffff8140c305>] ? find_next_bit+0x15/0x20 Jan 15 22:43:36 server kernel: [<ffffffff81704c5c>] ? is_mddev_idle+0x9c/0xfa Jan 15 22:43:36 server kernel: [<ffffffff816a20fc>] md_do_sync+0x89c/0xe60 Jan 15 22:43:36 server kernel: [<ffffffff810c4240>] ? wake_atomic_t_function+0x60/0x60 Jan 15 22:43:36 server kernel: [<ffffffff8169e689>] md_thread+0x139/0x150 Jan 15 22:43:36 server kernel: [<ffffffff810c4240>] ? wake_atomic_t_function+0x60/0x60 Jan 15 22:43:36 server kernel: [<ffffffff8169e550>] ? find_pers+0x70/0x70 Jan 15 22:43:36 server kernel: [<ffffffff810a0c08>] kthread+0xd8/0xf0 Jan 15 22:43:36 server kernel: [<ffffffff810a0b30>] ? kthread_create_on_node+0x1e0/0x1e0 Jan 15 22:43:36 server kernel: [<ffffffff8183888f>] ret_from_fork+0x3f/0x70 Jan 15 22:43:36 server kernel: [<ffffffff810a0b30>] ? kthread_create_on_node+0x1e0/0x1e0 

    One Solution collect form web for “Ubuntu 16.04 – arrays mdadm congelato”

    Usando LVM per questo è stato davvero un errore. Non solo rende uno stack di archiviazione complicato inutile per chiunque altro che il suo creatore, gli arrays MD sono costruiti prima di arrays LVM, richiedendo di ricall manualmente la scansione MD sui tuoi LV che agiscono come membri MD.

    Inoltre, evitare l'uso di nomi di periferiche del kernel in configurazioni persistenti (ad esempio sda, sdb, ecc.). Ciò è particolarmente importnte quando si denomina un gruppo di volumi, poiché VG smuove l'archiviazione sottostante e può essere liberamente spostato in PV. Anche i nomi dei nomi del kernel non sono considerati permanenti e possono cambiare in qualsiasi momento per vari motivi. Questo non è un problema per i PV LVM (perché fanno parte di una scansione del disco all'ingrosso e prenderà quasi tutto), ma il tuo nome VG non rispecchia rapidamente la realtà nella situazione che hai creato.

    Vorrei raccomandare di tentare di rimuovere con estrema facilità il LV dalla matrix MD e riportrlo a un stato degradato (ma sano). Sii consapevole che MD in cima a LVM non è una cosa che la gente si preoccupa quando il bug smashing. Sei in un territorio incontaminato e le cose che si prevedono di lavorare potrebbero non riuscire per nessuna ragione apparente.

    Se questi dati sono fondamentali e non vengono eseguiti backup, si desidera rsubmit a qualcuno in loco che sa LVM e MD veramente bene. Suppongo che tu non lo abbia da quando tu stai chiedendo qui, quindi facciamo una conversazione se ne hai bisogno. Lo aggiornerò con tutti i dettagli interessanti se wherete andare quel path. Per ora, prova solo a rimontare sostituendo il disordine di LVM con un vecchio disco normale per un membro.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.