CVT FI

RSS

Novinky, zajímavosti a změny v provozu počítačů, počítačové sítě, prezentační a další techniky na FI MU. Další informace jsou dostupné v Technických informacích na webu fakulty.

Pro hlášení problémů prosím kontaktujte příslušnou sekci CVT FI.

Informace o aktuálních problémech naleznete na stránce o výpadcích.

Vlastníci blogu: FI:unix@fi, FI:CVT FI
Starší příspěvky
Kategorie
Vlastníci blogu: FI:unix@fi, FI:CVT FI
Právo číst: kdokoliv v Internetu
Právo komentovat: kdokoliv přihlášený v ISu
14. 1.
2022

Novinky z unix@fi za 12/2021

  • RSS
Zajímavé | 6 | 6
Mgr. Tomáš Szaniszlo (CVT FI MU), učo 359894
unix

Obmedzené skúškové prostredie, odpovedníkové skúškové prostredie i mimo B130, skúšky v PC hale.

Stalo sa, stane sa

Čiastočný výpadok úložiska na Stratus.FI 7. 12.: Ak ste v utorok 7. 12. pozorovali medzi 12:50 a 13:15 problémy s niektorými virtuálnymi strojmi, išlo o výpadok dostupnosti časti úložiskovej kapacity (postavenej na technológii Ceph). Efektom bolo dočasné zaseknutie sa procesov vo virtuálnych strojoch v stave D (I/O wait).

Skúšky v PC hale: Toto skúškové obdobie sme v dôsledku epidemiologických opatrení (minimálne 1,5-metrový rozostup študentov), ktoré znižujú použiteľnú kapacitu učební, zaviedli možnosť skladať skúšky aj v PC hale. V praxi to obnáša možnosť túto miestnosť (B106) rezervovať v ISe. Aby sme zvýšili použiteľnú kapacitu tejto miestnosti obsahujúcej 34 linuxových a 24 windowsových strojov, rozložili sme stroje Nymfe na voľné stolíky, čím sa dostávame na kapacitu 34 linuxových a 12 windowsových strojov (špeciálnu podporu na skúšky majú totiž momentálne len stroje s Linuxom). Realizácia skúšok samozrejme obmedzuje voľnú prevádzku tejto miestnosti – o tom viac na výveske ISu.

Log4j ako automat na zraniteľnosti: Pokiaľ spravujete služby prístupné z nedôveryhodných sietí a podarilo sa vám to nezachytiť, v priebehu decembra vyplávalo na povrch niekoľko vážnejších zraniteľností týkajúcich sa javového logovacieho frameworku Log4j. Prvá a najvážnejšia z nich má dokonca podľa metodiky CVSS najvyššie možné skóre 10.0. Kontrola vami spravovaných služieb je teda určite na mieste, hoci ju rozhodne komplikuje fakt, že Log4j je často „skrytou“ súčasťou väčších projektov.

Krátky výpadok CI 16. 12.: Vo štvrtok 16. 12. došlo v dôsledku zaplnenia úložiska pre dockerové kontajnery nášho runnera GitLab CI k nemožnosti spúšťať úlohy CI. Problém sa začal prejavovať po 13:00 a zaplnenie disku sme do 15:30 odstránili. Runner sa však z toho úplne nezotavil a nepotešujúco pomohol až reštart celého OS, takže projekty nevyužívajúce svoj vlastný runner mohli zaznamenávať problémy až do 22:00.

Plánovaný výpadok siete FI 17. 12.: Medzi 06:30 a 07:00 došlo k úpravám pripojenia siete FI na strane MU, čo si vyžiadalo krátky (cca minútový) plný výpadok konektivity pre FI. Informovali sme o tom na našej stránke o výpadkoch a mailom interným zamestnancom a doktorandom.

Striktnejšie podmienky používania cookies: Pokiaľ prevádzkujete oficiálny web na FI a využívate nejakú webovú analytiku, od začiatku roka sa sprísnili pravidlá súvisiace s cookies (viď i FAQ ÚOOÚ). V tomto kontexte vás môže zaujímať webová analytika Matomo, ktorú na FI poskytujeme (explicitne sme tam doplnili postup konfigurácie sledovacieho kódu tak, aby nevyužíval cookies).

Linuxové stanice Nymfe

Nefunkčné VGA z notebooku v B130: Zrejme vzhľadom na nízku používanosť pripojenia vlastného notebooku v B130 k projektoru cez VGA kábel sme sa o tomto probléme dozvedeli až minulý mesiac. Po opravení konfigurácie matice pre AV signály (krabička pod stolom s Nymfe31) je už opäť funkčné i VGA.

Softvérové vybavenie a prostredie

Obmedzené skúškové prostredie: Po minulom avíze bude na stroji Nymfe11 počas skúškového obdobia trvale prístupné obmedzené skúškové prostredie, aby ste si ho mohli vyskúšať a prípadné problémy hlásiť na unix@fi.

Zmeny v odpovedníkovom skúškovom prostredí: Už dlho fungujúce odpovedníkové skúškové prostredie sme vylepšili o možnosť jeho použitia i v PC hale a A219. Tiež sme vynovili dizajn úvodnej stránky, ktorej sme zároveň pridali i anglický variant.

Obmedzenie dostupnej RAM na Aise: Prevádzkovanie Aisy ako zdieľaného servera pre veľké množstvo študentov si vyžaduje pomerne opatrnú konfiguráciu z hľadiska povolenia využiteľných systémových prostriedkov (napr. počet procesov kvôli fork bombám alebo využiteľná RAM) a čulý monitoring. Doteraz sme limitovali množstvo využiteľnej pamäte pre slice /user.slice (t.j. všetky procesy používateľských sedení) na 496 GB z celkovej dostupnej kapacity Aisy 503 GB.

To sa síce ukázalo ako vhodné, ale nie dostatočné v nedeľu 12. 12., keď sa jednému študentovi podarilo neohľaduplným spustením svojej výpočtovej úlohy zabrať všetku fyzickú pamäť zodpovedajúcej cgroup. Tento problém sme zaznamenali vďaka sledovaniu zvýšenej záťaže (ide o sledovanie, ktoré sme plošne pre naše servery pridali relatívne nedávno a zatiaľ sa ukazuje ako veľmi prínosné). Služby bežiace na Aise týmto ovplyvnené neboli (nachádzajú sa vo vedľajšom /system.slice), ale všetky používateľské procesy (a to zahŕňalo i procesy roota skúmajúce príčinu) začali medzi sebou bojovať o pamäť a práca s Aisou sa úplne interaktívnou nazvať nedala. Štandardne v tejto chvíli nastúpi mechanizmus OOM killer, ktorý heuristicky vyberie vhodný proces a násilne ho ukončí. Problematická výpočtová úloha však pozostávala z množstva paralelne spúšťaných procesov, takže si s ňou OOM killer dobre poradiť nevedel.

Vďaka našej pomerne rýchlej víkendovej reakcii sme však do polhodiny tento problém vyriešili násilným ukončením všetkých procesov problematického používateľa a zablokovaním jeho fakultného účtu. Pri tejto príležitosti rovno doplňme, že Aisa nie je určená na náročné výpočty; na ne je nutné využiť iné možnosti. Ako systémové riešenie tohto problému sme preventívne ešte znížili dostupnú kapacitu pre /user.slice na 440 GB a pre každého používateľa nastavili limit 256 GB cez /user-$UID.slice. Na okraj dodáme, že v nových verziách systemd existuje možnosť hromadnej konfigurácie tejto vlastnosti pomocou user-.slice.d, ale v aktuálnej ani v budúcej verzii RHELu dostatočne nová verzia systemd ešte nebude.

Nové moduly: Za tento mesiac sú v systéme modulov novinkami klon vimu Neovim (neovim-0.6.0 = neovim), model checker nuXmv (nuxmv-2.0.0) a nová (LTS) verzia OpenJDK (jdk-17).

Služby

Tlač z Windows cez Sambu opäť funkčná: Minule zmieňovaný problém sa „vyriešil sám“ pravidelnými aktualizáciami MS Windows. Tlačte!

Lepšia kvalita tlače copy5c: Na základe upozornenia naši technici zabezpečili servis kopírky copy5c. Ak ste teda pri tlači/kopírovaní pozorovali pruhy čiernej/modrej farby, v túto chvíľu je problém už odstránený.

Limit na zachovávané artefakty CI: Pri použití GitLab CI bývajú často vedľajším produktom či priamo cieľom behu úloh artefakty. Problémom však je, ak zaberajú artefakty jednej úlohy väčšie množstvo miesta a týchto úloh beží viac, čo môže kvôli dlhšej retencii artefaktov spôsobiť zaplnenie našich malých disčíkov. (Tu ešte dodáme, že už nejakú dobu máme úložiskové priestory pre rôzne komponenty súvisiace s CI na našom runneri oddelené, aby sme redukovali dopad zaplnenia jedného z nich.) V súvislosti s takýmto typom problému, na ktorý sme v decembri narazili, sme do odkazovanej dokumentácie doplnili sekciu Nastavení artefaktů, kde sme zdokumentovali odporúčanú YAML konfiguráciu CI, aby sme riziko tohto problému minimalizovali. Pokiaľ používate náš fakultný runner, konfiguráciu si upravte.

Nezmeškáte info o probléme na Status FI: Už vás unavujú situácie, keď mala nejaká služba FI problém a vy ste si nestihli kliknúť na prehľadovú stránku, kde sa na vás smeje už len zelené „všetko ok“? Strácate preto prehľad o tom, či bol problém reálny alebo sa vám to len zdalo? Nezúfajte, pretože teraz pre vás máme riešenie! Pokiaľ neuplynula viac než hodina od výskytu problému, u danej služby uvidíte „OK (since hh:mm)“.

Zrkadlíme AlmaLinux a Rocky Linux: V našom archíve OSS sme začali zrkadliť distribúcie Rocky Linux a AlmaLinux – klony, ktoré vznikli na základe už dávnejšej a nečakanej zmeny kurzu projektu CentOS.

Čitateľnejšie zobrazovanie kvót na Fadmine: Údaj o diskových kvótach v prehľade účtu na Fadmine sme vylepšili o zobrazovanie „human-readable“ verzie so sufixmi SI.

Rozšírenie úložiskovej kapacity pre DB: V súvislosti so zvýšenou záťažou fakultnej databázy PostgreSQL sme realizovali nákup nových SSD diskov pre úložiskový priestor DB, ktoré sú v túto chvíľu už nasadené a dávajú nám možnosť rozšíriť kapacitu o 800 GB. Doterajšia kapacita bola cca 400 GB.

Vedeli ste, že…

(vlastníctvo dôležitých študentských projektov v GitLabe) je dobré, aby dôležité výskumné/labové projekty udržované vo fakultnom GitLabe boli vlastnené buď stálejším členom labu alebo labovou skupinou (ktorú v prípade záujmu zriadime)? Vyhnete sa tak situácii, že študenti ukončia štúdium, fakultný účet im zanikne a s tým sa zneprístupnia aj ich gitlabové projekty. V horšom prípade nás musíte kontaktovať, my musíme získať súhlas vlastníka a následne pomerne prácne sprístupniť dané dáta. Existujúci projekt je možné presunúť do iného menného priestoru cez SettingsGeneralAdvancedTransfer project.

(šablóny v Stratus.FI s [CVT FI]) šablóny virtuálnych strojov v Stratus.FI so sufixom [CVT FI] môžete považovať za oficiálne? T.j. mali by byť funkčné (za hlásenia prípadných problémov s nimi budeme radi), optimalizované a vhodne nakonfigurované. Snažíme sa ich vyrábať a udržovať na aktuálnych verziách pre vybrané distribúcie.

Záverom

Máte pripomienky, návrh na vylepšenie alebo jednoducho potrebu pochváliť nás? :-) Napíšte nám mail či využite IT ideas.

Ak vás tieto novinky zaujali, môžete si zapnúť sledovanie blogu a následne zapnúť posielanie mailových upozornení.

Dosud nečteno0 komentářůpermalink
« Novinky z unix@fi za 11/2021 (17. 12. 2021 09:49) | Novinky z unix@fi za 01/2022 » (10. 2. 2022 15:22)

Zatím žádné komentáře.