Stalo sa, stane sa
Noví unixáci: Po avizovanom odchode našich kolegov prebehlo výberové konanie, na základe ktorého sú našimi novými členmi od 1. 7. postupne zaúčajúci sa Martin Janů a Michal Raček.
Uvoľnenejšie /var/tmp
Aury: Na výpočtovom serveri Aura sme v spolupráci s používateľmi rýchleho lokálneho úložiska /var/tmp
s kapacitou 5 TB znížili jeho za posledné mesiace pomerne vysoké zaplnenie. 6. 6. bolo využitie 90 % a 30. 6. sme sa dostali len na 52 %. Je to istá daň za to, že používateľov nechceme obmedzovať kvótami.
Výpadok autentizácie na Anxurovi 4. 6.: V rámci našich úprav došlo v utorok 4. 6. k nečakanému výpadku funkčnosti autentizácie fakultnými prihlasovacími údajmi na serveri Anxur. Problém sa začal prejavovať pre niektoré účty od 16:15 a následne ho od 16:25 (expirácia cache SSSD je 10 minút) pociťovali už všetky účty. Vďaka cache nám chvíľu trvalo, než sme problém zaregistrovali, ale o 16:29 sa nám ho podarilo odstrániť. Najviditeľnejším efektom bolo odmietnutie mailov doručovaných do domény fi.muni.cz
a ich vrátenie pôvodným odosielateľom v podobe nedoručenky s chybou user unknown
. Veľmi pravdepodobne má podiel na tejto udalosti i nejaká chyba v SSSD.
Výpadky Eduroamu 12.–19. 6.: Od večera v stredu 12. 6. sme zaznamenávali zvýšený výskyt krátkych problémov s autentizáciou do siete Eduroam kvôli problémom s univerzitnými servermi RADIUSu (viď i stručný popis architektúry Eduroamu). Podiel klientov, ktorí za daný deň zaznamenali nejaký problém, sa dostal z obvyklých cca 13 % na cca 44 %. Vďaka tomu, že klienti sa eventuálne dokázali pripojiť, problém nemusel byť až tak citeľný. Navyše, ako to už v týchto prípadoch problémov býva, pokiaľ sa už klient pripojil, tieto chyby ho už neovplyvňovali. O probléme sme informovali aj na našej stránke s aktuálnymi výpadkami. V utorok 18. 6. došlo zo strany univerzitných správcov serverov RADIUSu k oprave problému. Okrem toho došlo ešte v ten večer k plnému výpadku medzi 20:35 až 21:45.
Porucha kopírky copy5c od 17. 6.: Po krátkom výpadku v pondelok 3. 6. došlo 17. 6. k väčšiemu problému s kopírkou copy5c, ktorá musela odvtedy zostať odstavená. Momentálne čakáme na náhradné diely (cez prázdniny by mali prísť) a zatiaľ sú jej tlačové fronty zakázané.
Pomalší GitLab CI a výpadok 19. 6.: Náš monitoring zaznamenal, že zrejme v súvislosti s väčším využívaním GitLab CI počas skúškového dochádzalo občas na našom runneri GitLab CI k preťaženiu. To mohlo niekedy spôsobovať až chyby v pripájaní sa k službe: Cannot connect to the Docker daemon
. V piatok 19. 6., medzi 17:46 a 18:16, nebol náš GitLab runner dostupný v dôsledku našich snáh o skúmanie a riešenie tohto problému. Zdá sa, že zníženie paralelizmu (ohľadne limitu na počet bežiacich úloh CI; aktuálne je to 6 úloh) pomohlo a odvtedy sme výskyt takýchto chýb už v logoch nezaznamenali.
Problémy s GitLabom 26. 6.: Ako sme už naznačili v minulom príspevku, v stredu 26. 6. sme v rámci aktualizácie GitLabu narazili na problém s kompatibilitou s verziou fakultnej databázy PostgreSQL (vyžadoval 14 oproti našej 13). To spôsobilo, že od 20:16 ste mohli pozorovať chyby, napríklad neresponzivitu widgets ako Merge Request overviews. Následne sme problém medzi 21:25 až 21:48 dočasne vyriešili ponížením GitLabu z 17.1 na 16.11. Čoskoro sa však k hlavnej verzii 17 vrátime. (K 07/2024: Už!)
Výpadky IPv6 29. 6.: V sobotu 29. 6. sme zaznamenali tri cca 5-minútové úplné výpadky dostupnosti IPv6 pre FI/MU. Na základe nášho monitoringu sa zdá, že šlo o problém niekde v sieti CESNETu, keďže sme problém zaznamenali pre všetky sledované IP adresy umiestnené topologicky za sieťou CESNETu, ale aj pre siete pripojené k CESNETu (FIT VUT). Dá sa však asi povedať, že efekt výpadku bol pomerne zanedbateľný, keďže výpadky postihujúce čisto IPv6 stále nie sú tak prominentne viditeľné… teda, kým na ne nezasvietime našim blogovým reflektorom.
Infraštruktúra a hardvér
Zrýchlenie captive portálu: Na základe náhodného upozornenia na problémy s captive portálom na sieti wlan_fi
sme sa rozhodli eliminovať rolu kontroléra UniFi v captive portáli. Toto bolo možné po tom, ako sme v rámci nedávneho vylepšenia captive portálu doimplementovali presmerovanie neautorizovaných klientov priamo na úrovni nášho fakultného routera, namiesto toho, aby toto bolo hlavne v réžii kontroléra UniFi, respektíve UniFi AP.
Toto riešenie však malo stále nejaké problémy. I po tejto úprave sme ešte ponechali dodatočnú autorizáciu u kontroléra UniFi. Tu však boli často reautorizácie klienta (po tom, ako sa klient v daný deň už raz autorizoval) veľmi pomalé – mohlo to trvať aj okolo minúty či viac. Vďaka tomu jednak dlho trvalo zobrazovanie informácie o úspešnej autorizácii IP na wifi.fi.muni.cz
(zelená „fajka“) a jednak počas tejto prechodnej doby neboli úspešné prístupy k stránkam s HTTPS, keďže končili na captive portáli UniFi, čo sa prejavovalo upozornením na neplatný certifikát. O možnosti výskytu takýchto problémov sme síce vedeli, ale nepredpokladali sme, že sú (aspoň na základe informácií používateľa) pociťované až tak plošne. V túto chvíľu by problémy s veľmi dlhou autorizáciou na wifi.fi.muni.cz
či neplatnými certifikátmi mali byť odstránené. Vieme ešte o pretrvávajúcom probléme, ktorý máme tiež v pláne opraviť, že sa „zelená fajka“ v prehliadači zobrazí až po 15 sekundách (hoci reálne už pripojenie k sieti klientovi funguje).
Všeobecne je však časťou problému i to, že sme sa o tomto dozvedeli len náhodne (nie všetko ide jednoducho monitorovať a máme na to kapacitu) a to s komentárom, že tá sieť údajne nefunguje dobre väčšine študentov a už to trvá nejakú dobu. Bez takýchto informácií je ale ťažké riešiť problém so zodpovedajúcou prioritou.
Linuxové učebňové stroje
Ďalší vývoj dualbootu: Na základe požiadavky z výuky sme rozšírili možnosť dualbootu aj na B116 a B117 (dovtedy bola len pre PC halu). Zároveň sme rozvrhárku informovali o možnosti jeho využitia počas semestra podzim 2024 (čím sa po necelom roku uzatvára úvaha o rozdelení učební na linuxové a windowsové), s možnosťou zmeny/výberu systému vždy na začiatku dňa.
Prázdninová prevádzka: Ako obvykle, 1. 7. až 13. 9. nebudú PC učebne prístupné, s výnimkou B011 dostupnej medzi 7 až 15, viď i vývesková správa.
Softvérové vybavenie a prostredie
Utlmený „uvítací“ spam shellu na Lunách: Po otvorení shellu na Lunách by ste už nemali dostávať správu The default interactive shell is now zsh
(viď i článok od Apple). Najpravdepodobnejšie sa začala zobrazovať po nedávnej aktualizácie macOS.
Služby
Odspomalenie CPU Aisy: Zistili sme, že v rámci aktualizácie OS Aisy pred rokom z RHELu 7 na 9 sme prehliadli a nezohľadnili zmenu v ovládači výkonu CPU intel_pstate
(ktorá prišla s RHELom 8.5). Pôvodne sme nastavovali jeho politiku („governor“) na powersave
, čo je snáď i intuitívne – cieľom bola snaha nižšieho odberu a šetrenia energie pri nízkej záťaži Aisy. Po novom má však toto nastavenie zásadne odlišnú sémantiku: použije sa vždy najnižšia frekvencia. Novým lepším nastavením, ktoré sme aplikovali, je politika ondemand
. Vzhľadom na to, že CPU Aisy (Intel Xeon E7-8860 v3 @ 2.20GHz; viď lscpu
) majú rozsah frekvencií 1200 MHz až 3200 MHz (viď napr. cpupower frequency-info
), znamenalo to, že teoreticky môžu byť teraz programy až 2,6-krát rýchlejšie. Toto je asi celkom dobrý príklad tienistejšej stránky optimalizácií a odchýlok od implicitných konfigurácií. Koho by táto oblasť viac zaujala, môže nájsť rôzne užitočné informácie nasledujúcimi príkazmi
cpupower -c all frequency-info | grep -E 'analyzing|driver|governor ' | paste - - -
cat /sys/devices/system/cpu/cpu0/cpufreq/{scaling_driver,scaling_governor}
lscpu -e
Nasadenie ARC – dopad na poštu: V súvislosti s aprílovým nasadením hlavičiek ARC na fakultný poštový server sa s odstupom pri pohľade na dáta/logy ukazuje, že sa miera odmietania mailov vrátila na pôvodné hodnoty z doby, než Google upravil podmienky prijímania pošty.
Custom Domains pre GitLab Pages: Ešte v máji sme zaviedli prvú doménu do GitLab Pages, ktorá je konfigurovaná pomocou Custom Domains. Toto umožňuje viac samoobslužné konfigurovanie si vlastnej domény pre projekty GitLab Pages – bez nutnosti nášho zapojenia do procesu. V júni sme ju aj doplnili do technickej dokumentácie a ide o riešenie, ktoré bude z nášho pohľadu cestou budúcnosti oproti doterajšiemu spôsobu konfigurácie (ručná konfigurácia proxy) krajších domén (v porovnaní s implicitnými namespace.pages.fi.muni.cz/project
). Doterajšie riešenia cez proxy necháme „dožiť“ tak ako sú. Z pohľadu používateľov to bude akurát vyžadovať krok navyše: požiadať registrátora domény o zavedenie TXT záznamu do DNS pre overenie GitLabom.
Zrýchlenie zmeny fakultného hesla: Problém zmieňovaný v aprílovom blogu by sa už od 14. 6. nemal vyskytovať a zmena hesla by mala byť prakticky okamžitá (v ráde sekúnd; oproti dovtedajšej možnosti trvania až do pár minút).
Fakultný web a technická dokumentácia
Podman na Nymfách: Na Nymfách je už nejakú dobu dostupný Podman. Túto realitu sme reflektovali i v dokumentácii linuxových staníc.
Klapky na PC miestnosti v ISe: Historicky sú v ISovom prehľade miestností uvedené telefónne klapky pre D1 až D3. Na žiadosť vyučujúcich sme ich pridali aj pre PC učebne. Dozvedeli sme sa, že to vie byť užitočné pre uloženie si miestností do svojich kontaktov, keď volá dozor zo skúšok na fakultnú klapku, ktorú má vyučujúci presmerovanú na svoj mobilný telefón.
Oprava starších predmetových katalógov: Boli sme upozornení, že niektoré staré predmetové katalógy nemuseli byť dostupné (napríklad 2018/2019).
Vedeli ste, že…
… (tipy pre linuxové stroje) ak si sami inštalujete a konfigurujete svoj pracovný či labový stroj na FI, máme pre vás užitočné tipy.
… (naša sonda RIPE Atlas) vo fakultnej sieti máme softvérovú sondu projektu RIPE Atlas, ktorá umožňuje nezávisle monitorovať dostupnosť siete FI a overovať prípadné podozrenia na výpadok siete FI/MU.
Záverom
Máte pripomienky, návrh na vylepšenie alebo jednoducho potrebu pochváliť nás? :-) Napíšte nám mail či využite IT ideas.
Ak vás tieto novinky zaujali, môžete si zapnúť sledovanie blogu a následne zapnúť posielanie mailových upozornení.