Afdrukken

Verstoringen HCC-servers


30/4/2020
In de laatste week hebben wij regelmatig kleine en grotere problemen ondervonden met de bereikbaarheid van alle HCC servers. Sommige van jullie hebben dit ervaren, anderen hebben het mogelijk niet eens gemerkt.

De problemen zijn de afgelopen periode deels opgelost door bv het upgraden van de routers en de loadbalancers, met extra korte verstoringen tot gevolg. Echter de problemen met de storagecapaciteit bleken hardnekkiger. Afgelopen weekend (zaterdagnacht) hebben we onderhoud uitgevoerd aan onze storage omgeving, in de hoop dat we daarmee de problemen hadden opgelost.

Echter dit bleek niet afdoende, waarna we contact hebben gezocht met de maker van de betreffende software. Deze gaf aan dat onze software die de storage omgeving beheert niet meer onderhouden gaat worden en dat we moesten over stappen op een ander software component.

Gelukkig waren we al naar alternatieven aan het zoeken en kunnen we snel verder.

Dit is echter voor ons veel werk en maar we hebben inmiddels een compleet nieuwe storage cluster gebouwd. Voor de techneuten onder ons: deze is gebaseerd op DRBD en als management laag Linstore met verder NFS Corosync en Pacemaker.

Het bouwen van het nieuwe opslagcluster is inmiddels afgerond, we zijn nu een aantal tests aan het uitvoeren.

De planning was om het omhangen van alle sites naar dit nieuwe opslag cluster komend weekend uit te voeren. Gezien de huidige problemen gaan we echter z.s.m. deze actie uitvoeren.

We verwachten vanmiddag of begin van de avond site voor site alle HCC-sites te kunnen gaan overzetten naar dit nieuwe cluster. Per HCC-site zal deze naar verwachting 10 minuten tot maximaal 30 minuten offline zijn.

Hoe kun je ons helpen?

Voer vandaag zo min mogelijk mutaties uit op de websites: dat houdt de tijd van synchroniseren voor ons zo kort mogelijk en daarmee ook de downtijd van je eigen site.
Houd er rekening mee dat er komende tijd nog wel het een en andere getuned moet worden, waardoor er kleine verstoringen kunnen ontstaan. Uiteraard proberen we de hinder hiervan zo beperkt mogelijk te houden.


Capaciteit problemen


Naast deze problemen die we hebben gehad met de storage hebben we ook nog eens last van overbelasting, door het corona virus worden onze site veel beter bezocht. Ook hiervoor hebben we stappen genomen en zijn we bezig met het inzetten van extra capaciteit. We hebben daarvoor een apart database cluster opgezet, waar we de sites van alle interessegroepen in onder gaan brengen. Door het technisch scheiden van de database servers tussen Interessegroepen en Regio’s hebben we in totaal meer database capaciteit beschikbaar. Voor jullie als webmaster is dit transparant en verandert er niets.

DDOS aanvallen


Dit alles is al lastig genoeg, maar schijnbaar is de verveling bij wat hackers toegeslagen. Momenteel hebben ook onze sites en servers veel last van DDOS aanvallen op onze servers waardoor websites op sommige momenten ook slechter bereikbaar zijn.