Zprávu z monitoringu jsme dostali ve stejnou minutu a začali jsme podnikat kroky k analýze problému. Vzhledem k noční době byli na místě pouze recepční. Instruovali jsme je, aby zkusili resetovat kontroler chlazení. Pro tuto situaci máme ve strojovně chlazení připravené podrobné grafické instrukce, aby fyzický reset kontroleru byl schopen rychle udělat kdokoli, koho tím pověříme.
Bohužel i po resetu kontroleru byly vidět nesmyslné údaje na vstupech od teploměrů a dalších čidel. Teplota v datacentru dále rostla. Protože se nepodařilo problém nijak řešit vzdáleně a hrozilo poškození serverů v datacentru vysokou teplotou, přikročili jsme ke krizovému opatření - vypnutí přívodu napájení do datacentra. (cca v 01:50, teplota na rozhraní teplé a studené uličky již dosahovala téměř 50 °C).
Pracovníci CVT FI pak na místě pracovali na manuálním nastavení strojovny pomocí otevírání a zavírání jednotlivých ventilů a ruční manipulací s dalšími prvky tak, aby strojovna i bez kontroleru fungovala aspoň v režimu freecooling. Toto bylo naštěstí vzhledem k nevelkým venkovním teplotám funkční a datacentrum se posupně začalo ochlazovat.
Ve 4:10 bylo opět zapnuto napájení do obou sálů datacentra a začalo řešení problémů - počínaje koncovými jističi které vybavily proudovým nárazem při zapnutí přes problémy s bootováním různých serverů až po zprovozňování koncových služeb. Okolo 6:30 už byla podle Nagiosu většina služeb opět funkční.
Protože venkovní teplota stoupala, bylo třeba co nejdříve opět chladicí systém zprovoznit tak, aby mohl fungovat i v režimu strojního chlazení pomocí kompresorových chladicích jednotek. To se bohužel nepodařilo. Nakonec jsme použili nouzové řešení, které máme pro nejkritičtější případy připravené - vyměnili jsme celý kontroler chlazení za náhradní kus. Předávání řízení tomuto kontroleru se neobešlo bez dalších problémů - kontroler chtěl přepínat strojovnu na strojní chlazení dřív, než se podařilo zrušit ruční ovládání některých prvků. Navíc nový kontroler odmítal pracovat se servopohonem jednoho z nejdůležitějších ventilů. Toto se nakonec ukázalo být způsobeno vadným kontaktem ovládacího relé.
Okolo 12:30 už byla strojovna řízena náhradním kontrolerem, z bezpečnostních důvodů zafixovaným v režimu strojního chlazení. V neděli večer jsme pak přepnuli strojovnu do automatického výběru chladicího režimu.
Předběžný průzkum vadného kontroleru ukázal poškození některých dat na vnitřním úložišti kontroleru. Jestli to byla příčina nebo důsledek výpadku zatím nevíme. Problém řešíme s dodavatelem chladicího systému a ten s výrobcem samotného kontroleru.
Výpadek chlazení datacentra ukázal, že bohužel žádný systém není stoprocentně spolehlivý, a také že každá další porucha se může významně lišit od těch předchozích. Na pozitivní straně je to, že hned v několika situacích pomohla krizová dokumentace, kterou pro tyto případy připravujeme, samozřejmě aniž bychom dopředu tušili, jak přesně může konkrétní výpadek vypadat, a co přesně postihne.
Jako nesouvisející zajímavost dodáváme, že v noci z 25. na 26. dubna bylo 33. výročí havárie jaderného reaktoru v Černobylské elektrárně. Všem uživatelům systémů postižených pátečním výpadkem se omlouváme.