VMware vSphere HA #2 Failure Detection – Proactive HA

Fatih Şölen 02/04/2022 Sanallaştırma, Storage, VMware Bir yorum yazın

BENZER MAKALELER

VMware vSphere HA makale serisine Host Failure Detection konusu ile devam ediyoruz. Eğer önceki makaleyi okumadıysanız, aşağıdaki ilk makaleden başlamanızı öneririm.

VMware vSphere HA #1 Nasıl Çalışır?

vSphere HA Host Failure Detection

Bir önceki makalemde belirttiğim gibi primary host tüm secondary hostların erişilebilirlik durumlarını kontrol eder. Bu kontrol her saniye gönderilen network heartbeatleri ile sağlanır. Eğer secondary host/hostlar primary host’a network heartbeat gönderemezse, primary bu hostu doğrudan hatalı olarak işaretlemez.

İlgili host kısmi network sorunu nedeniyle primary hosta heartbeat gönderemiyor fakat üzerindeki sanal makineler olağan şekilde çalışıyor olabilir. Bu durumda sanal makinelere restart göndermek mantıksız olacaktır.

İşte burada liveness check devreye giriyor. Liveness heartbeat göndermeyen ikincil hostun shared datastorelar ile iletişim kurup kurmadığı kontrol eden mekanızmadır. (Bu konuya datastore heartbeat başlığında detaylı değineceğiz.)

Bu kontrol haricinde management özelliği aktif vmkernel portlarının ip adreslerinden de ping kontrolü kontrolü yapılır.

Yukarıda belirttiğim kontroller sonrası vSphere HA host hatalarını 3 başlıkta değerlendirerek gereken aksiyonu alır.

Failure
Isolation
Partition

Failure

Yukarıda ilettiğim kontrollere hiç bir şekilde bu kontrollere cevap gelmediyse host hatalı (Failure) olarak işaretlenir. Bu host üzerindeki sanal makineler diğer sağlıklı hostlar üzerinde yeniden başlatılacaktır.

Isolation

Yukarıda ilettiğim kontrollerde ikincil hostlardan biri heartbeat göndermiyor, pinge cevap vermiyor, shared datastorelar ile iletişimi şüpheli ve üzerindeki sanal makineler çalışmaya devam ediyor ise bu host isolated olarak işaretlenecektir.

Bu durumda HA Host Failure Response kısmında nasıl belirtildiyse, izole olan host üzerindeki sanal makineler graceful ya da force methodu ile kapatılarak diğer hostlar üzerinde yeniden başlatabilir.

Partition

Yukarıda belirttiğim kontrollere 2 ya da daha fazla host cevap vermiyor fakat bu hostlar üzerindeki sanal makineler çalışıyor ise herhangi bir yeniden başlatma işlemi gerçekleştirilmeyecektir.

Daha basit anlatmak gerekirse;

Eğer bir host kontrollere hiç cevap vermiyorsa, host üzerindeki sanal makineler diğerlerinin hostlarda yeniden başlatılacaktır.
Eğer bir host üzerinde sanal makineler haricinde hiç bir kontrole cevap dönülmüyor ise, bu host networkten izole olmuştur. Datastore heartbeat durumuna göre yeniden başlatma kararı alınır.
Eğer ikiden fazla host cevap vermiyor ise bu hostlar özelinde bir network problemi gerçekleşmiş olabileceğinden yeniden başlatma işlemi yürütülmeyecektir.

Eğer shared storage bağlantılarınızda NFS, iSCSI gibi ip temelli protokoller ya da vSAN kullanıyorsanız;

Networkten tamamen izole olan host, ip temelli storage protokollerindeki erişimini de doğrudan kaybedecek ve isolated yerine doğrudan failure durumuna düşecektir.

VMware vSphere HA için bahsettiğim tüm mekanızmaların düzgün çalışabilmesi için, network ve storage bağlantılarının best practicelere uygun şekilde yedeklenmiş olmalı ve en az iki shared datastore şartını sağlamalıdır.

Proactive HA

Proactive HA, yanılmıyorsam vSphere 6.5 sürümü ile duyurulan bence kullanılmanızda fayda olacak bir özellik.

Eğer Proactive HA özelliğini aktifleştirdiğinizde bu cluster altındaki hostlarınızdan birinde, operasyonu etkilemeyen fakat etkileme ihtimali oluşturan bir olay gerçekleşirse bu host üzerindeki sanal makineler kesintisiz olarak (vMotion ile) diğer hostlar üzerine taşınır. Proactive HA bu hostu sizin daha önceden ayarlabileceğiniz şekilde maintenance mode’a ya da quarantine mode’a geçirecektir.

Proactive HA’in tetiklenmesi için bir örnek vermek gerekirse;

Bir sunucumuz üzerinde çalışan yedekli PSU lardan biri arıza yaptı. Ya da PDU tarafında bir kesinti gerçekleşti. Ya da bir memory arızası oluştu. Bu arızalar sunucunun işleyişini durdurmayacak fakat yedekliliğimizi kaybettiğimiz için downtime riski oluşturacaktır.

Proactive HA bu tarz durumlarda ilgili hostun üzerinde çalışan sanal makineler diğer hostlara kesintisiz dağıtılır. Proactive HA bu vMotion işlemi sebebiyle VMware DRS‘e ihtiyaç duyar.

Host isolation response konusu ile devam edeceğimiz bir sonraki makaleye aşağıdaki linkten ulaşabilirsiniz.

VMware vSphere HA #3 Host Isolation Response

Fatih Şölen | Bilgi Teknolojileri Blogu Sanallaştırma ve Sistem Blogu

VMware vSphere HA #2 Failure Detection – Proactive HA

BENZER MAKALELER

vSphere HA Host Failure Detection

Failure

Isolation

Partition

Proactive HA

İLGİNİZİ ÇEKEBİLİR

VMware Explore 2023

VMware Power Actions 1.0

VMware Tanzu – Storage

Kubernetes Platformları – Storage

Leave a Reply