CVT FI

RSS

Novinky, zajímavosti a změny v provozu počítačů, počítačové sítě, prezentační a další techniky na FI MU. Další informace jsou dostupné v Technických informacích na webu fakulty.

Pro hlášení problémů prosím kontaktujte příslušnou sekci CVT FI.

Informace o aktuálních problémech naleznete na stránce o výpadcích.

Vlastníci blogu: FI:unix@fi, FI:CVT FI
Starší příspěvky
Kategorie
Vlastníci blogu: FI:unix@fi, FI:CVT FI
Právo číst: kdokoliv v Internetu
Právo komentovat: kdokoliv přihlášený v ISu
10. 3.
2025

Novinky z unix@fi za 02/2025

  • RSS
Informačně přínosné | 8 | 8
Mgr. Tomáš Szaniszlo (CVT FI MU), učo 359894
unix

Softvér pre GPU na Nymfách, Ako sa rozhodla vypadávať projekcia v C123, Zrýchlenie diskových operácií Stratus.FI, Externé učebne a stream z našich učební, …

Stalo sa, stane sa

Pád uzla Stratus.FI 1. 2.: Zrejme v dôsledku nedeterministickej chyby v jadre (BUG: unable to handle page fault) pri inštanciácii VM došlo večer v sobotu 1. 2. k pádu jedného z uzlov virtualizácie Stratus.FI, ktorá zasiahla i niekoľko produkčných virtuálnych strojov. Tie sme do 75 minút od výpadku uviedli do pôvodného stavu. Zaujímavým pozorovaním však bolo, že u tohto uzla došlo k výraznému zrýchleniu diskových operácií; viď bod nižšie.

Výpadok siete 3. 2.: V utorok 3. 2. došlo od 09:59 do 10:33 v dôsledku problému v sieti MU k výpadku sieťovej konektivity pre FI. IPv6 bolo čiastočne funkčné.

Sieťový jubilant: Tento blogový príspevok využijeme ako príležitosť krátko zablahoželať jednému z našich switchov – sw1-s5 (hlavný switch pre budovu S) – ktorý bežal k 9. 2. bez reštartu už desať rokov (t. j. boot 9. 2. 2015). Na rozdiel od serverov, kde je potreba aktualizácie systému a reštartov výrazne väčšia, u switchov sú s týmto súvisiace hrozby menšie, keďže prístup k jeho vlastným rozhraniam je vďaka VLANom celkom výrazne izolovaný. Pre zaujímavosť, za tú dobu switchom pretieklo/preplo 5 biliónov paketov a 4.8 exabajtov dát.

Dva výpadky Anxura: V stredu 12. a vo štvrtok 20. februára došlo k pádom servera Anxur. Tento server obsluhuje fakultnú poštu a tiež cez NFS (a Sambu) poskytuje linuxové domovské adresáre, úložisko data i pár ďalších špecifických úložísk. V prvom prípade došlo k pádu v súvislosti s debugovaním NFS a v druhom v dôsledku opakujúcej sa chyby. Bohužiaľ, u druhého prípadu sa nám napriek nejakému venovanému úsiliu nepodarilo zatiaľ nájsť riešenie, ale prijali sme aspoň kroky smerujúce k zníženiu rizika. V oboch prípadoch trval výpadok kľúčových služieb do 15 minút, hoci v druhom prípade došlo k zasiahnutiu linuxových učebňových strojov počas výuky, ktoré v tejto situácii zamrznú (grafické rozhranie beží nad sieťovými domovskými adresármi → procesy v stave I/O sleep) a zotavia sa po cca 10 minútach od obnovenia funkčnosti servera NFS.

Infraštruktúra a hardvér

Ako sa rozhodla vypadávať projekcia v C123: Uvedenie nových priestorov do prevádzky sa snáď nikdy nezaobíde bez úvodných múch. Tie sme sa v učebniach v C1 s veľkým nasadením snažili ešte pred začiatkom semestra odladiť. Jedným z relatívne mála hlásených a riešiteľných problémov boli krátke výpadky projektora v linuxovej učebni C123. Kolegovia z avt@fi to preverovali, ale i napriek snahe a nepeknému zachádzaniu s káblami sa im to nepodarilo reprodukovať. Poodhaliť mechanizmus problémov pomohlo až mierne bizarné hlásenie „projekcia vypadne, keď vstanem zo stoličky.„ Následne sa nám po nejakej chvíli skúmania podarilo zistiť, že problém očividne spôsobuje elektrostatický výboj, vytvorený pohybmi zadnej časti tela prednášajúceho subjektu voči sedačke stoličky, a uvoľnený pri kontakte nôh subjektu s podlahou. Tento výboj (ESD) má vplyv buď priamy alebo nepriamy (EMI). Jedným riešením bude letné obdobie, kedy relatívna vlhkosť vzduchu stúpne, čo bude limitovať hromadenie sa elektrostatického náboja. Vzhľadom na dlhú realizačnú dobu tohto prístupu sme skúmali ďalej a ukázalo sa že komponentom ovplyvňovaným ESD/EMI bude časť káblovej trasy od signálového prevodníka (umiestneného v katedre) k ethernetovej zásuvke v stene. Videosignál k projektorom je v C1 vedený ethernetovými pomocou HDbaseT. Po výmene kábla (netieneného) UTP Cat 5e za (tienené) STP Cat 6A problém zmizol. Overovali sme ešte, že protiľahlá a technologicky prakticky identická C117 týmto problémom netrpí, ale zjavne len preto, že má bezkolieskové stoličky (s celokovovou nosnou konštrukciou). Testovacia introdukcia kolieskovej stoličky z vedľajšej učebne poľahky vyvolala rovnaký problém i tu. Zjavne teda nepomáha ani ESD prevedenie koliesok stoličiek.

Ešte ako druhú príčinu možného vypadávania signálu sme v rámci vyššie uvedeného laborovania identifikovali uvoľnený port HDMI v skrini PC. Tento problém zatiaľ nemáme doriešený, ale pravdepodobnosť jeho výskytu by mala byť nižšia.

Na záver tu ešte ako zaujímavosť pripomeňme mnoho rokov starý prípad, kedy po nákupe nových PC do B130 dochádzalo k ich okamžitému resetu po zasunutí USB kľúča do portu – tzv. Reset as a USB Service. Tu bolo príčinou, že v rámci montáže PC u dodávateľa chýbalo uzemňujúce prepojenie kostry šasi PC s kostrou internej čítačky kariet s USB portami.

Pomalé sieťové linky v C1: Čerstvo nová (infra)štruktúrna kabeláž sa ukázala byť nie najspoľahlivejšia. U viacerých trás sme zaznamenávali pomalosť, výpadky alebo nefunkčnosť. Pomalé linky u učebňových strojov monitorujeme a asi 5 ich bolo namiesto na 1 Gbps len na 100 Mbps, a dve ďalšie dokonca len na 10 Mbps! Časť problému je daná aj neveľmi spoľahlivými/kvalitnými keystones (v podstate zásuvky). Preto bola po 12:00 v piatok 28. 2. realizovaná kompletná revízia a premeranie sieťových trás.

Nočná rekonfigurácia kanálov Wi-Fi: Testujeme novú možnosť automatickej rekonfigurácie rádií Wi-Fi (výber vysielacieho kanála a šírky pásma), ku ktorej dochádza o jednej ráno. Viď i minulé problémy s kanálmi.

IP adresy FAST VUT: Pokiaľ by ste potrebovali vedieť IP adresy externých výukových priestorov mimo MU, čo sa teda týka len FAST VUT, PC vyučujúcich majú verejné adresy z 147.229.163.0/25 a zariadenia na Wi-Fi Eduroam 147.229.117.45, 147.229.117.145, 2001:067c:1220:1022::/64.

NTP hodiny v C1: Ako zaujímavosť zmienime, že po prvotnom nasadení v C3 boli do nových PC učební osadené ďalšie NTP hodiny, čím sa nám ich flotila rozšírila na 7 kusov. Vďaka nim odpadajú problémy so slabým rádiovým signálom v budove a ich doterajšia rok a pol dlhá prevádzka v C3 sa zatiaľ osvedčila lepšie, než rádiovým signálom ovládané hodiny.

Učebňové stroje s Linuxom

Softvér pre GPU na Nymfách: Nadväzujúc na minulý bod: V PC hale sú karty GPU na Nymfe01 až Nymfe03 (pôvodne Nymfe01 a Nymfe04). Doinštalovali sme balíčky nvidia-driver-550 nvidia-cuda-toolkit nvidia-container-toolkit nvtop nvitop poskytujúce základný potrebný softvér na prácu s GPU (i z kontyšov). Ak pri používaní nvcc narazíte na problémy s kompiláciou, skúste načítať modul gcc-12.2, keďže systémové GCC je na repozitárovú verziu CUDA príliš nové a oficiálne nepodporované, prípadne použiť -std=c++17. Informácie o GPU máme už aj v dokumentácii. Výukové využitie (ktoré bude mať v prípade potreby prioritu pred ad hoc využívaním) máme nahlásené z PA228 Machine Learning in Image Processing a PV211 Introduction to Information Retrieval. GPU môžete v kontajneri sprístupniť pomocou --device nvidia.com/gpu=0.

Vyprázdnenie a zväčšenie /var/tmp: Na všetkých linuxových učebňových strojoch sme vyprázdnili úložisko /var/tmp a zväčšili sme jeho kapacitu zo 100 GB na 200 GB. Cieľom je vytvoriť väčší priestor pre nenažrané obrazy kontajnerov. V A219 (Nymfe87 až Nymfe105) sme navyše súborový systém previedli z ext4 na XFS, ktorý nám umožní deduplikáciu (aspoň na úrovni súborového systému, keďže sa nám additionalimagestores bohužiaľ nepodarilo rozchodiť). I tak je však dôležité šetriť diskové miesto.

Problém s prepínaním prihlásených používateľov: Zistili sme, že niekdy sa na zamykacej obrazovke grafického sedenia nezobrazuje ikonka umožňujúca prepnúť používateľa. Problém zatiaľ nemáme vyriešený, keďže sa nám ho nedarí spoľahlivo reprodukovať – budeme radi za hlásenia jeho výskytu. Stále je však možné prepnúť sa pomocou Ctrl-Alt-F1 na prvú grafickú konzolu, kde je prihlasovací dialóg GDM.

Posledné čriepky k PC hale a C1: Viď i minulý bod. V PC hale nakoniec zostáva 20, nie 19 strojov s dualbootom (Titány; súvisí s nižšou než plánovanou kapacitou C117). Z rôznych hostnames v úvode semestra pozliepaná C118 (Dryády, Najády, Titány) bola unifikovaná na 24 Najád. Do PC haly sme vrátili stroje iMac – Luny.

Softvérové vybavenie a prostredie

Poštoví klienti na Anxurovi: Na Anxura sme na žiadosť doinštalovali NeoMuttNotmuch.

i3lock na Nymfách: Na žiadosť používateľa desktopového prostredia i3 sme na Nymfy a Múzy doinštalovali zamykač obrazovky i3lock.

Softvér pre výuku: Do modulového python3-3.10.2 sme doinštalovali rozširujúci modul scikit-fmm.

Nové moduly od používateľov: openmpi-5.0.7, rust-1.85.0

Mrznutie IDEA s modulovým jdk-21: Zaznamenali sme problémy s mrznutím vývojového prostredia IDEA a zdá sa, že dôvodom je využívanie modulovej verzie JDK (module add jdk-21), kde z dôvodu šetrenia miesta nastavujeme ukladanie cache do väčšieho úložiska data. To je zrejme problém v prípade, že prostredie využije dáta z cache vytvorené staršou verziou JDK. Pomôže zmazanie cache (~/data/IntelliJIdea), prípadne použitie systémovej verzie JDK 21, keďže ju na Nymfách a Múzach máme nainštalovanú z distribučného repozitára.

Služby

Údržba Stratus.FI a aktualizácia OpenNebuly: I v nadväznosti na pozorovanie po páde a reboote jedného uzla sme aktualizovali balíčky na uzloch Stratus.FI a postupne sme ich rebootovali (počas tejto operácie sú virtuálne stroje bezvýpadkovo migrované medzi uzlami). Počas migrácie uzlov sa vyskytli isté problémy, vďaka ktorým sa u VM môže vo webovom rozhraní zobrazovať chyba Driver Error ... Feb 3 ... MIGRATE ... see more details in VM log, ktorú je však možné ignorovať a správu odkliknúť. Pokiaľ by ste pozorovali, že vám zmizla konzola VNC, skúste ju v konfigurácii VM opäť zapnúť a vyvolať redeployment VM. V rámci toho sme tiež povýšili Ceph na verziu 19 (Squid). OpenNebulu poháňajúcu Stratus.FI sme aktualizovali na verziu 6.10 (vďaka tomu bolo v pondelok 3. 2. webové a RPC rozhranie Stratus.FI občas nedostupné). Hlavnou novinkou má byť plná implementácia možností staršieho rozhrania Ruby SunStone (ktoré prechádza do údržbového režimu) do nového rozhrania FireEdge SunStone. Napriek týmto silným tvrdeniam to tak zrejme úplne nebude, keďže napríklad nastavovanie používateľských atribútov ako CRYPTED_PASSWORD, ktorý je pre výrobu inštancií z predpripravených šablón kľúčový, v novom rozhraní zrejme nie je nikde dostupné.

Zrýchlenie diskových operácií Stratus.FI: Po pomerne veľkom množstve investovaného času ohľadne systémových optimalizácií, aplikačných optimalizácií najnáročnejších virtuálnych strojov (viď 12/20241/2025) a údržbe vyššie, po ktorej došlo k ďalšiemu významnému zrýchleniu Cephu (hoci úplne konkrétnu príčinu sa nám identifikovať nepodarilo), sa nám nakoniec podarilo eliminovať jeho pomalosť prejavujúcu sa od konca novembra. Bohužiaľ, z doby pred začiatkom začiatkom pomalosti nemáme vhodné metriky, na základe ktorých by to šlo jednoznačne preukázať (navyše, záťaž Cephu tiež nie je v čase identická), ale vzhľadom na pozorované zrýchlenie služieb (u Gitlab CI sme sa počas 24 hodín dostali pri meraní zvnútra VM s minútovým vzorkovaním v maxime na 1300 wIOps) sa domnievame, že sme sa vo výkonnosti dostali na ešte vyššiu úroveň, než pred prvými problémami. Tiež sme schopní lepšie odhaľovať problematické VM, ktoré najviac zaťažujú Ceph. A ďalšie zásadné zlepšenie očakávame tento rok od prechodu z rotačných diskov na NVMe, ako sme už zmieňovali v minulom blogovom príspevku.

Opäť živé tlačiarne a kopírky: Hneď začiatkom mesiaca boli do prevádzky vrátené lj3b, lj4p, copy2c, copy4c. Kopírka copy4b bola bez náhrady zrušená (respektíve, presunula sa do role copy5c) a z priestorových dôvodov boli zrušené aj tlačiarne lj4c, lj5c. Viď tiež aktualizovaný zoznam.

DMARC pre fi.muni.cz: Vo večnom boji proti spamom je ďalším krokom, ktorý sme implementovali, nasadenie záznamu DMARC pre doménu fi.muni.cz (viď dig +short -t txt _dmarc.fi.muni.cz). Ide o záznam, ktorý mailovým serverom, ktoré príjmu poštu od fi.muni.cz, dáva informáciu o tom, ako majú prihliadať na výsledok overenia podľa SPF a DKIM, a ako naložiť s mailmi, ktoré niektoré z týchto kontrol nesplnia.

Fakultný web a technická dokumentácia

Externé učebne a stream z našich učební: Na stránke Učebny mimo areál FI zhromažďujeme pre vyučujúcich i študujúcich technické informácie o nefakultných učebniach, kde prebieha naša výuka. Z dôvodu uvedenia kontaktov je nutná autentizácia fakultnými prihlasovacími údajmi. Okrem toho sme na stránku s informáciami pre vyučujúcich doplnili informácie o streame z našich učební v budove FI. Tieto informácie boli tiež pred začiatkom semestra poštou šírené zamestnancom FI.

K práci s kontajnermi na Nymfách: V prípade systémovejšej potreby využitia kontajnerov (nielen v súvislosti s GPU) je vzhľadom na väčšiu náročnosť na diskový priestor veľmi vhodné konzultovať to s nami (a využívať skôr predpripravené obrazy – DockerHub alebo fakultný GitLab Container Registry). Toto sme i reflektovali v dokumentácii Nymfinformáciách pre vyučujúcich ohľadne kontajnerizácie. Tiež sme dokumentáciu Nymf doplnili o zmienku potreby upratovania dát po sebe (podman system prune -a) a o zmienku dostupnosti podman-docker.

Autentizácia voči GitLab Container Registry: Aktualizovali sme nepresnú dokumentáciu ohľadne nahrávania obrazu cez docker/podman push, kde nebolo uvedené, že v prípade aktivovaného 2FA nie je možné autentizovať sa v tomto príkaze fakultným menom a heslom, ale je nutné použiť vhodne nastavený PAT (Personal Access Token).

Aktualizácia návodu sambovej tlače z macOS: Na základe hlásení o problémoch tejto konfigurácie tlače sme doplnili informáciu o potrebe kliknutia navyše na tlačítko „Retry“ do dokumentácie (bod 6).

Vedeli ste, že…

(tlač z Aisy) pokiaľ máte právo tlače na fakultných tlačiarňach/kopírkach, môžete tlačiť aj z Aisy (napríklad cez lpr). Tlač funguje vďaka autentizácii cez Kerberos, takže ak ste sa prihlásili cez SSH kľúč, je ešte nutné vyrobiť si autorizačný lístok Kerbera zavolaním príkazu kinit (bez parametrov).

(vyšší model CPU v Stratus.FI) pokiaľ chcete na svojich strojoch v Stratus.FI použiť softvér, pre ktorý sú nutné pokročilejšie inštrukcie CPU, je to (s určitou opatrnosťou) možné dosiahnuť špecifikáciou vyššieho parametra MODEL pre CPU. Pôvodne sme v našich predpripravených šablónach tento parameter nenastavovali, ale po istom čase začali byť s niektorými OS problémy (viď 06–08/202204/2024). Zákerné však je, že nie vždy je jednoduché prísť na to, že vám OS alebo program nefunguje práve z dôvodu nepodporovaných inštrukcií. To nás viedlo k nastavovaniu modelu na EPYC. Ďalším použiteľným modelom je ešte EPYC-IBPB, ale vyššie hodnoty ako EPYC-Rome alebo EPYC-Milan univerzálne použiteľné nie sú, keďže z dôvodu priebežných nákupov aktuálne prevádzkujeme aj uzly s CPU prvej generácie EPYC: 7351, 7543, 75F3, 7713. V dôsledku migrácie strojov pri aktualizácii uzlov by teda mohlo dôjsť k presunu na stroj s nižším modelom CPU, čo by veľmi pravdepodobne spôsobilo VM problémy.

Záverom

Máte pripomienky, návrh na vylepšenie alebo jednoducho potrebu pochváliť nás? :-) Napíšte nám mail či využite IT ideas.

Ak vás tieto novinky zaujali, môžete si zapnúť sledovanie blogu a následne zapnúť posielanie mailových upozornení.

Dosud nečteno0 komentářůpermalink
« Novinky z unix@fi za 01/2025 (28. 2. 2025 12:32) | Novinky z unix@fi za 03/2025 » (10. 4. 2025 14:13)

Zatím žádné komentáře.