CVT FI

RSS

Novinky, zajímavosti a změny v provozu počítačů, počítačové sítě, prezentační a další techniky na FI MU. Další informace jsou dostupné v Technických informacích na webu fakulty.

Pro hlášení problémů prosím kontaktujte příslušnou sekci CVT FI.

Informace o aktuálních problémech naleznete na stránce o výpadcích.

Vlastníci blogu: FI:unix@fi, FI:CVT FI
Starší příspěvky
Kategorie
Vlastníci blogu: FI:unix@fi, FI:CVT FI
Právo číst: kdokoliv v Internetu
Právo komentovat: kdokoliv přihlášený v ISu
31. 5.
2022

Jak jsme byli bez napájení

  • RSS
Zajímavé | 42 | 42
RNDr. Jan Kasprzak, Ph.D. (CVT FI MU), učo 1885
infrastruktura
V následujícím příspěvku se podíváme na problematiku redundance infrastruktury napájecího systému FI a řekneme si, že i přes duplikaci mnoha součástí se často v systémech nedá vyhnout tomu, aby obsahovaly společnou komponentu, jejíž porucha způsobí fatální výpadek. Popíšeme si, co se stalo v neděli 22. května ve večerních hodinách s elektrickou sítí v budově FI.

K výpadku v budově došlo podle našich záznamů okolo 21:20. Kontrola na místě ukázala, že v budově jsou zřejmě rozsáhlé části bez napájení. Zjistili jsme, že v rozvodně IT je vypnutá většina jističů a záložní zdroj DUPS je ve stavu bypass a setrvačník se pomalu zastavuje. Dokonce ani křížové signálky na dveřích rozvaděčů, které signalizují sepnutí nebo rozepnutí některých podstatnějších jističů, nesvítily. To by ukazovalo na to, že nefunguje ani 24V signalizační napájení. No a vzhledem k tomu, jak je 24V zdroj řešený, jsme začali tušit, že toto možná bude příčina a ne důsledek problému. Proměřením svorkovnic 24V napájení od zdroje dál jsme poměrně rychle objevili, že je spálená tato 10A pojistka, která je první přímo za 24V zdrojem:

Vyměnili jsme pojistku, čímž se v rozvodně rozběhla 24V signalizace, a začali jsme řešit, v jakém pořadí budeme jednotlivé spotřeby zapínat. Nejprve jsme zapnuli chladicí systém datacentra, potom zálohované přívody do budovy mimo půdorys datacentra. Dále jsme přepnuli DUPS zpět do provozního režimu, kdy nejprve roztočí setrvačník na provozních cca 47 Hz, a poté se přepne z bypassu na on-line zálohování. Chladicí systém datacentra se sám nerozběhl, protože má svůj vlastní 24V zdroj zálohovaný baterií, takže z pohledu kontroleru se to jevilo, jakoby přestaly fungovat všechny komponenty chlazení, napájené z 230/400 V. Nicméně stačilo resetovat stav poruchy, a systém začal nabíhat do provozního režimu. Následně jsme okolo 23:15 zapnuli přívody napájení pro STS switche datacentra (podrobnosti o napájecím systému datacentra ve starším příspěvku). Mezitím kolegové obcházeli patrové rozvaděče v budově a kontrolovali, které podružné jističe vypadly příliš velkým náběhovým proudem při zapnutí přívodu do rozvaděče.


Křížové signálky na dveřích rozvaděčů

Jakmile běželo napájení v datacentru, bylo možné začít oživovat síť a servery po softwarové stránce. Umístili jsme také informaci o výpadku na s stránku o výpadcích na Fakultní administrativě. Okolo půlnoci už běžela většina fakultních systémů včetně ISu, nicméně menší problémy jsme řešili ještě asi do 2:30, a pak ještě další věci jsme opravovali v průběhu pondělka. Celkově se v noci z neděle na pondělí přímo na místě na řešení vzniklé situace podíleli čtyři zaměstnanci CVT FI.

Co se vlastně stalo?

V rozvaděčích je kromě vlastního 230V napájení ještě instalován 24V zdroj, který slouží pro různé signalizační a řídicí součástky. LED signálky na dveřích rozvaděčů, monitoring pomocných kontaktů jističů, převodník RS485 sběrnice na které jsou elektroměry, atd. A také stop tlačítka:

Z důvodu požární i jiné bezpečnosti (úraz elektrickým proudem a podobně) musí být větší budovy vybaveny tlačítkem, kterému se říká „Central stop“, a které zjednodušeně řečeno způsobí vypnutí veškerého napájení v budově. Protože nechceme, aby případný problém někde v budově vedl k vypnutí napájení v prostorově omezené oblasti datacentra, máme v budově dokonce dvě tlačítka Central stop: jedno vypíná datacentrum a podpůrnou infrastrukturu, a druhé vypíná běžné prostory (učebny, kanceláře, chodby, ...). A protože v budově jsou ještě systémy, které mají zůstat funkční i při požáru (evakuační výtah, stabilní hasicí zařízení, odvětrávání chráněných únikových cest a podobně), existuje ještě třetí tlačítko „Total stop“, určené k použití případným velitelem požárního zásahu po dokončení evakuace budovy. Toto tlačítko vypíná i záložní zdroj DUPS.

Stop tlačítka fungují tak, že každé vypíná určitou sadu jističů. Požadavky na tento systém jsou takové, že i v případě poruchy mají spíš vést k vypnutí, než že by v případě poruchy zůstalo omylem něco pod napětím, co by mělo být vypnuté. Technicky je to realizováno tak, že v jističích jsou podpěťové spoušti s vyrážecími cívkami, které v případě ztráty napětí na podpěťové spoušti příslušný jistič rozepnou.

Asi je vidět, že signalizační napájení 24 V, které drží i tyto podpěťové spoušti, je možným slabým místem dostupnosti celého systému. Proto jsou v rozvodně dva nezávislé 24V zdroje ze dvou napájecích cest (dokonce ze dvou různých transformátorů): jeden z nich zálohovaný DUPS, druhý na nezálohované cestě má svoji vlastní malou 24V bateriovou UPS. Oba zdroje jsou pak spojeny diodovým modulem, který zajišťuje funkčnost i při výpadku libovolného jednoho ze dvou zdrojů. Funkčnost obou zdrojů i stav diodového modulu je sledována dohledovým systémem, takže o případném výpadku jedné z cest bychom se dozvěděli.


Pojistková svorkovnice 24V napájení. Hnědě zbarvené kabely v pozadí jsou tzv. funkční kabely, s požární odolností.

Bohužel k problému došlo až těsně za tím místem, kde se obě cesty 24V napájení potkávají, a které už není redundantní. Z hlediska stop-tlačítek byla tato situace ekvivalentní stisku tlačítka Total stop, ale pouze v rámci rozvodny IT. Výpadek se nedotkl nezálohovaných rozvodů v budově, které mají svoji rozvodnu a jsou napájeny ze samostatného transformátoru T1.

Nesmíme zapomenout na jeden aspekt, a to že kromě té jedné spálené pojistky jsme neobjevili další poruchu. A pojistka se obvykle nespálí jen tak sama od sebe. Je tedy možné, že nějaký další problém, který sám mohl být příčinou té spálené pojistky, na nás někde hluboko ještě číhá.

Vylepšit něco do budoucna?

Vzhledem k podstatě problému stoprocentně funkční řešení neexistuje, protože systém musí být postaven směrem na bezpečnou stranu – vypnutí i v případě poruchy.

Co pravděpodobně zkusíme udělat, je nahradit jeden diodový modul menšími moduly až pro jednotlivé spotřeby 24V napájení, aby nebyla jen jedna hlavní pojistka, ale na každé napájeci cestě samostaná. Pak by snad případné přetížení mělo vést k výpadku jen jedné pojistky a jedné napájecí cesty ze dvou, případně za diodovým spojem k výpadku jen jedné části napájecího systému, například jen jednoho rozvaděče na jedné ze dvou napájecích cest.

Ještě připomínáme, že pokud máte podezření na výpadek v síti FI, lze se podívat na stránku status.fi.muni.cz, jak je to vidět zvenku.

Dosud nečteno1 komentářpermalink
« K riešeniu Firefox is already running (10. 5. 2022 15:04) | Novinky z unix@fi za 04/2022 » (8. 6. 2022 16:10)

Osobní stránka Bc. Martin Mackovík
Re: Jak jsme byli bez napájení
  • RSS
Díky za další moc zajímavý článek, blog CVT FI je super.
31. 5. 2022 17:34, Bc. Martin Mackovík (stud FI MU), učo 514506