This is an old revision of the document!
Zum Thema VSAN gibt es einige sehr schöne Demos zum Durchklicken unter
https://storagehub.vmware.com/#!/vmware-vsan/vmware-vsan-demonstrations
Bei den 970er Evos wird bei neueren vSAN Releases evtl. die Firmware angemeckert.
[root@esx-1:~] esxcli nvme device get -A vmhba1 | egrep "Serial Number|Model Number|Firmware Revision" Serial Number: S4EUNG0M219966P Model Number: Samsung SSD 970 EVO Plus 250GB Firmware Revision: 1B2QEXM7
Richtig wäre hier aber FW EDA7402Q.
Die Firmware findet man unter https://www.samsung.com/semiconductor/minisite/ssd/download/tools/ Aber da ist keine EDA7402Q zu finden Die höchste Version ist 2B2QEXM7. Weitere Infos für den firmware Download können auch unter https://tinkertry.com/ssd-magician-and-firmware-download-limits-exceeded-samsung-seriously gefunden werden. Das ISO findet man unter http://ssd.samsungsemi.com/ecomobile/ssd/update14.do?fname=/Samsung_SSD_960_PRO_2B6QCXP7.iso
Also wird der Healthcheck nach https://www.virten.net/2017/04/how-to-silence-vsan-health-checks/ abgeschaltet. RVC:
vsan.health.silent_health_check_configure -a controllerfirmware .
esxcli network ip interface set -m 9000 -i vmk3 esxcli vsan health cluster list esxcli network ip interface list esxcli vsan network ip add -i vmk0 -T=witness
Durchsatz mit iperf checken:
esxcli network firewall set --enabled false
/usr/lib/vmware/vsan/bin/iperf3.copy -s -B <Kernelport IP>
esxcli network firewall set --enabled false
/usr/lib/vmware/vsan/bin/iperf3.copy -c <Kernelport IP>
esxcli network firewall set --enabled true
https://www.vmware.com/try-vmware/vsan-new-hol-labs.html
https://blogs.vmware.com/virtualblocks/2017/04/05/m-2-ssd-boot-device-vsan/
https://blogs.vmware.com/virtualblocks/2017/01/18/designing-vsan-disk-groups-cache-ratio-revisited/
https://nolabnoparty.com/en/virtual-san-2-node-cluster-installtion-robo-pt1/
https://github.com/equelin/vsanmetrics
https://storagehub.vmware.com/t/vmware-vsan/vsan-poc-performance-checklist/
https://www.virten.net/2017/04/how-to-silence-vsan-health-checks/
https://www.altaro.com/vmware/how-to-generate-vsan-html-report-powercli/
https://blogs.vmware.com/performance/2018/12/hcibench-specific-issues-recommendations-vsan.html
https://storagehub.vmware.com/section-assets/powercli-cookbook-for-vsan
https://storagehub.vmware.com/t/vmware-vsan/vmworld/vmworld-vsan-sessions/1
esxcli system settings advanced set -o /VSAN/ClomRepairDelay -i <value in minutes> /etc/init.d/clomd restart
Ich betrachte hier mal vorrangig eine VSAN Cluster mit zwei Seiten und einer Witness Appliance.
Hintergrund und Konfiguration von Fault Domains ist am einfachsten bei Cormac Hogan nachzulesen.
http://cormachogan.com/2015/04/20/vsan-6-0-part-8-fault-domains/
http://cormachogan.com/2017/03/10/2-node-vsan-topologies-review/
http://cormachogan.com/2015/09/11/a-closer-look-at-the-vsan-witness-appliance/
http://cormachogan.com/2015/09/14/step-by-step-deployment-of-the-vsan-witness-appliance/
In einem Stretched Cluster wird von der lokalen Seite gelesen und auf beiden Seiten geschrieben. Bei Ausfall einer Platte erfolgt:
Ein Ausfall deines Hosts entspricht dem Ausfall einer Disk, nur das wesentlich mehr Componenten betroffen sind HA startet die VMs neu und die Objekte werden neu auf Disks anderer Hosts synchronisiert.
Wenn auf einer Seite Netzwerkprobleme mit ein oder mehreren Hosts auftreten, werden folgende Aktionen durchgeführt:
Wenn eine komplette Seite ausfällt, gibt's folgende Reaktion:
Gibt es einen Netzausfall zwischen den Seiten, aber die Witness ist noch erreichbar, kommt zum ersten mal die “Preferred Site” zum Einsatz.
Wenn die Witness komplett ausfällt oder die Erreichbarkeit über Netz von der primären Seite und der sekundären Seite nicht mehr gegeben ist, hat dies erst einmal keinen direkten Einfluss auf das VSAN.
Was passiert:
Die Witness muss beide Seiten sehen, um in einen VSAN Cluster verbunden zu werden. Erst nach der Aussynchronisation kann eine Seite “fehlen”.
Wenn alle Hosts in einem VSAN Cluster untereinander isoliert sind, passiert folgends:
Wenn das Netz an allen Standorten noch funktioniert, aber zwischen den Standorten nichts mehr geht entsteht ei ähnliche Scenario wir “Alle Hosts sind isoliert”.
$ds = Get-Datastore vsanDatastore $sp = "thickProvisioned" $vms = Get-VM -Datastore $ds foreach ($vm in $vms) { $vm, (Get-HardDisk -VM $vm) | Set-SpbmEntityConfiguration -StoragePolicy $sp }
Um eine Diskgruppe zu löschen, muss die entsprechende Cachedisk gelöscht werden.
esxcli vsan storage remove --ssd=naa.xxxxxxx
esxcli system settings advanced set -o /Net/Vmxnet3HwLRO -i 0 esxcli system settings advanced set -o /Net/UseHwTSO -i 0 esxcli system settings advanced set -o /Net/UseHwTSO6 -i 0 esxcli system settings advanced set -o /Net/TcpipDefLROEnabled -i 0 esxcfg-advcfg -s 2047 /LSOM/heapSize esxcfg-advcfg -s 110000 /LSOM/diskIoTimeout esxcfg-advcfg -s 4 /LSOM/diskIoRetryFactor esxcfg-advcfg -s 512 /VSAN/DomClientheapsize esxcfg-advcfg -s 48 /LSOM/lsomLogCongestionHighLimitGB vsish get /vmkModules/vsan/dom/MaxNumResyncCopyInFlight Default: 50 vsish -e set /vmkModules/vsan/dom/MaxNumResyncCopyInFlight 25 esxcfg-advcfg -s 1 /VSAN/SwapThickProvisionDisabled Value of SwapThickProvisionDisabled is 1