Problem z replikacją macierzową – błąd failed to recover datastore … vmfs volume residing on recovered devices “109” cannot be found, some virtual machines in protection group “PROTECTION_GROUP” could not be recovered. — studium przypadku.
SRM ma jeden super fajny feature – przełączenie testowe. Przełączenie testowe regularnie warto robić! Dlaczego? Postaram się poniżej streścić.
Sytuacja, wszystko działa jak należy. Monitoring nie wychwycił żadnych błędów zarówno w konfiguracji serwerów/vmware/srm jak i konfiguracji czy pracy macierzy. Podczas testowego przełączenia SRM dla jednej z grup replikacji proces przebiega dłużej niż zwykle i w końcu pojawia się błąd: failed to recover datastore … vmfs volume residing on recovered devices “109” cannot be found.
Żmudna analiza wykazała, że po przełączeniu ESXi nie może zamontować wystawionego datastore z uwagi na problemy z systemem plików. System plików w tym samym czasie działa prawidłowo dla systemu w ośrodku podstawowym.
Ponieważ filesytem (vmfs) działa prawidłowo w ośrodku podstawowym i nie zgłasza żadnych błędów a nie chce się podmontować w ośrodku zapasowym ślady prowadzą do macierzy i do prawidłowej replikacji.
Analiza blokowa wykazuje, że filesystemy się różnią już na początku dysku.
Dodam tylko, że macierz wyższej znanego producenta z top 5.
Kolejna moja twierdza czyli przeświadczenie o niezawodności replikacji storage updała.
Przydatne polecenia:
hexdump -C naa. … |less
Producent macierzy zauważa problem, ale ponieważ nie może tego odtworzyć w labie to … sprawa do tej pory nie jest rozwiązana 🙁
No Comments