Digitální svět: technologie, potenciál, rizika Dlouhodobé uchování dat Miroslav Bartošek, bartosek@ics.muni.cz David Antoš, antos@ics.muni.cz Dlouhodobé uchování dat2 Přednášející Miroslav Bartošek ̶ ÚVT MU, Knihovnicko-informační centrum MU ̶ Automatizace knihoven ̶ Digitální knihovny ̶ Open Science David Antoš ̶ ÚVT MU, CESNET, z.s.p.o. ̶ Oddělení datových úložišť ̶ Digital Preservation Dlouhodobé uchování dat3 Obsah přednášky 1. Uchování informací v historii lidstva Paměťové instituce ● Nosiče informací a jejich životnost ● Co se nám z minulosti dochovalo/nedochovalo a proč 2. Uchování informací v digitálním světě Specifika a hrozby digitálních informací ● Křehkost médií ● Technologické zastarávání ● Ochranné strategie ● Aspekty digitální ochrany 3. Digitální archiv a osobní archivace OAIS model – nahlédnutí za oponu ● Důvěryhodnost ● Tipy pro osobní archivaci ● Chmurné perspektivy? 4. The Long Now Podpora dlouhodobého uvažování ● 10.000 Year Clock ● Rosetta Disc Dlouhodobé uchování dat4 1. Uchování informací v historii lidstva Dlouhodobé uchování dat5 1.1 Uchování informací ̶ Uchovávání informací = důležitý úkol v historii lidstva ̶ Klasické „paměťové“ instituce • muzea (fyzické artefakty) • archivy (nepublikovaný materiál) • knihovny (publikovaný materiál) ̶ Základní přístupy k uchování materiálu • konzervace uchovávání původního artefaktu (metoda: obnovování – refreshing) • uchování uchování informačního obsahu původního artefaktu, i při zániku originálu (metoda: migrace) Alexandrijská knihovna (295 př.n.l. – 642 ??) Dlouhodobé uchování dat6 1.1 Uchování informací Národní archiv Praha, Chodov Moravský zemský archiv Brno, Bohunice https://www.nacr.cz/o-nas/historie https://www.asb-portal.cz/wp-content/uploads/images/fotogaleria/ Dlouhodobé uchování dat7 1.1 Uchování informací Národní knihovna ČR Praha, Klementinum (Barokní sál) Moravská zemská knihovna Brno, Kounicova ul. Foto : varadikamen.cz Dlouhodobé uchování dat8 1.2 Nosiče informací a jejich životnost Rozdílné zkušenosti ̶ starověké záznamy ~ 4000 let (kosti, kámen, hliněné tabulky, papyrus, pergamen, papír) ̶ fotografické dokumenty ~ 200 let (od 1839) (fotografické desky, film, fotopapír) ̶ audiovizuální záznamy ~ 100 let (voskové a celuloidové válečky, šelakové desky, LP-desky, magnetické pásky) ̶ elektronické dokumenty ~ desítky let (magnetický záznam, optický záznam, SSD) Novější nosiče: větší kapacita, ale obvykle kratší životnost!! Dlouhodobé uchování dat9 1.3 Rosettská deska ̶ Objevena 1799 během Napoleonova tažení do Egypta ̶ Žulová stéla 114 x 71 cm ̶ Text z r. 196 př. n. l. ve třech různých zápisech: • egyptské hieroglyfy • egyptské démotické písmo • starořečtina ̶ Champollion: rozluštění hieroglyfů ̶ Londýn, British Museum Dlouhodobé uchování dat10 Dlouhodobé uchování dat11 1.4 Hodně se dochovalo… ̶ Jeskynní kresby (Lascaux, Francie, 16 000 let) ̶ Babylónské hliněné destičky (4 000 let) ̶ Svitky od Mrtvého moře (cca 2 000 let) ̶ Starověké rukopisy a staré tisky (inkunábule) ̶ Antické písemnosti, … • Ne vždy se dochoval originál (médium vs informace) (přepisy řeckých děl v klášterech – běh proti času) • „Archimedes codex“, Reviel Netz & William Noel, 2007 V ČR: ̶ Vyšehradský kodex (cca 1085, korunovace Vratislava II.) (nejstarší psaná památka, součást „korunovačních klenotů“) Dlouhodobé uchování dat12 1.5 Hodně se (nenávratně) ztratilo… ̶ Originální rukopisy řeckých učenců, různý starobylý materiál… Ale i novodobé dokumenty: ̶ Značná část novin na kyselém papíru (konec 19. a poč. 20.st.) ̶ 50 % filmů ze 40. let ̶ Marvin Minsky (AI, 60. léta) versus Galileo Galilei (16 st.) ̶ Originální videozáznam z přistání Apollo 11 na Měsíci (19.7.1969) ̶ 20 % NASA Viking (první průzkum Marsu, 1976) ̶ První email (1971), obsah první webové stránky (1990) ̶ …a mnohé, mnohé další… Křehkost nosiče, chyby/opomenutí, vandalství, přírodní katastrofy, závislost na technologiích, chybějící systém/infrastruktura ! Dlouhodobé uchování dat13 2. Uchování informací v digitálním světě Dlouhodobé uchování dat14 2.1 Optimismus – a vystřízlivění ̶ Digital information is forever. It doesn’t deteriorate and requires little in the way of material media. Andy Grove, Intel Corp. ̶ Digital information lasts forever – or five years, whichever comes first. Jeff Rothenberg, RAND, 1995 Dlouhodobé uchování dat15 2.2 Dlouhodobé uchování ̶ Knihovny: dlouhodobě = staletí ̶ Digitální technologie: inovační cyklus cca 5 let (v průměru po 5 letech je daná technologie zastaralá ) • The trouble with technological progress is that it seems to come at the expense of preservation. (Ian H.Witten, How to Build a DL) • Computer technology is made for information processing, not for long term storage. (M.Wettengel, NSR) Digitální technologie dlouhodobé uchování neusnadnily, naopak spíše je komplikují! DP Handbook ! Dlouhodobé uchování dat16 2.3 V čem je problém s digitální informací? ̶ Přístup a zobrazení digitální informace jsou závislé na technologiích (nestačí k tomu lidské smysly) ̶ Hrozby pro digitální informaci 1. Křehkost záznamového média (krátká životnost, nízká odolnost vůči změnám) 2. Technologické zastarávání (platformní závislost – nosič, formát, software, hardware) ̶ Další • Velký (trvale rostoucí) objem digitálních dat • Finanční nákladnost • Nezbytné expertní znalosti Dlouhodobé uchování dat17 2.4 Křehkost digitálního média ̶ Krátká životnost • Pevné disky – roky • Zapisovatelná optická CD/DVD – roky • Archivní magnetické pásky – desítky let • Čím vyšší hustota zápisu, tím hůře ̶ Nízká odolnost proti změnám obsahu • Snadnost provádění (ne)úmyslných změn • Samovolné změny (bit rot) ̶ Rychlá obměna technologií • Typy médií • Čtecí zařízení • Komunikační rozhraní, ovladače Běžná digitální média nejsou vhodná pro dlouhodobé uchování Narušení integrity a autenticity ! Dlouhodobé uchování dat18 Dlouhodobé uchování dat19 Dlouhodobé uchování dat20 2.5 Technologické zastarávání ̶ Formát dat • způsob zakódování informace do binárního zápisu (doc, docx, xls, jpg, tif, mp3, …) • tisíce formátů, nově vznikající, otevřené/proprietární formáty, obsolete • software nezbytný pro dekódování/zobrazení informace ̶ Software ̶ Nástroje (textový procesor, tabulkový kalkulátor, videosoftware, DB-systém, poštovní klient) ̶ Aplikační software (IS MU, ekonomický systém, … – interpretace dat v souborech) ̶ Operační systém (MS Windows, Apple OS, Linux, …) ̶ Hardware • Počítač (IBM PC, Apple, superpočítač Cray, herní konzola, mobil) • Periferní zařízení (vstupní, výstupní, …) • Síť Závislost dat na „správných“ technologiích je velký problém DP Handbook ! Dlouhodobé uchování dat21 2.6 Co je „Digital Preservation“ ̶ Digital Preservation The goal of digital preservation is the accurate rendering of authenticated content over time. Digitální uchování kombinuje postupy, strategie a akce zajišťující přesnou reprodukci ověřeného obsahu v průběhu času, a to s ohledem na případná selhání záznamových médií a na probíhající technologické změny. ̶ Dvě úrovně • Bit-level preservation (dostupnost digitálních dat) • Logical preservation (technologické změny + porozumění obsahu) Terminologie: Digital Preservation (DP), LongTerm Preservation (LTP) DP Handbook Dlouhodobé uchování dat22 2.7 Ochranné strategie a) Nosič (uchování digitálních dat – bitová ochrana) ̶ oživování a replikace ̶ nový formát b) Informace (digitální obsah a jeho význam – logická ochrana) ̶ uchování technologického prostředí ▪ technologické muzeum ▪ emulace ̶ překonání technologické zastaralosti ▪ migrace ▪ encapsulation V praxi: kombinace přístupů (+ digitální archeologie, když vše selže)! Dlouhodobé uchování dat23 2.8 Aspekty digitální ochrany ̶ Digitální ochrana zdaleka není jen problém technologický ̶ Ne izolovaný proces, součást širšího digitálního inf. prostředí ̶ Integrální součást celého životního cyklu digitální informace (nutná podpora od CMS – content management systémů) ̶ Součást běžného každodenního fungování organizace (ne kampaňovitost jako u analogových inf. zdrojů) ̶ Nejefektivnější když je pre-emptivní (problematická ex-post záchrana až při vzniku potíží) ̶ Nutná spolupráce různých subjektů (nakladatelé, paměťové instituce, komerční specializované firmy, instituce, jednotlivci) ̶ Je dražší než u analogových zdrojů (ale zatím neumíme cenu dlouhodobé archivace vyčíslit) Dlouhodobé uchování dat24 Pro zájemce o další informace Digital Preservation Handbook 2nd Edition https://www.dpconline.org/handbook Digital Preservation Coalition © 2015 Illustration by Jørgen Stamp digitalbevaring.dk CC BY 2.5 Denmark Dlouhodobé uchování dat25 3. Digitální archiv Dlouhodobé uchování dat26 Sloupy stvoření Hubbleův teleskop, 1995 Dlouhodobé uchování dat27 3.1 Systémová ochrana digitálních informací ̶ Digitální uchování je složité – jak to řešit „systémově“? ̶ Koncepce standardizovaného „Digitálního archivu“ ̶ Podnět od kosmických agentur (NASA, ESA, …) (obrovské objemy dat, spousta negativních zkušeností) ̶ 2002: OAIS – Open Archival Information System • Referenční model pro dlouhodobý Digitální archiv • ISO standard (od 2014 i ČSN) ̶ Pro naše potřeby příliš odborné/obsáhlé ̶ …ale pár postřehů i pro osobní inspiraci… Dlouhodobé uchování dat28 3.2 OAIS • SIP – Submittion Information Package • AIP – Archival Information Package • DIP – Dissemination Information Package Dlouhodobé uchování dat29 Papírový archiv https://www.ceskatelevize.cz/porady/1142743803-reporteri-ct/212452801240049/0/44211-archivalie-zidovskych-obcanu-na-ceskem-sternberku/ Dlouhodobé uchování dat30 Digitální „archiv“ (superpočítač Frontera) https://news.utexas.edu/2019/06/19/ut-austins-frontera-named-5th-fastest-computer-in-the-world/ Dlouhodobé uchování dat31 3.3 Důvěryhodnost Digitálního archivu Důvěryhodnost – prokázaná schopnost úložiště zachovat digitální dokumenty v dlouhodobém horizontu přístupné a použitelné Různé stupně jak prokázat důvěryhodnost (certifikace) ̶ Základní certifikace (Data Seal of Approval, 16 guidelines, self-assessment) ̶ Rozšířená certifikace (self-audit podle ISO 16363) ̶ Formální certifikace (externí nezávislý audit dle ISO 16363 certifikovanou autoritou) ̶ ISO 16363:2012 – Audit and certification of trustworthy digital repositories Dlouhodobé uchování dat32 3. …a osobní archivace Dlouhodobé uchování dat33 3.4 Osobní digitální archivace ̶ Má smysl starat se „rozumně“ o svá osobní digitální data ̶ Library of Congress: https://digitalpreservation.gov/personalarchiving/ ̶ Pár tipů: ▪ Zálohovat: alespoň 2 zálohy na separátních médiích ▪ Zálohy uchovávat na vzdálených lokalitách ▪ Média označit a držet v bezpečných místech (jako důležité dokumenty) ▪ Namátkově ověřit čitelnost médií ▪ Alespoň každých 5 let vytvořit nová záložní média ▪ Systematicky roztřídit své osobní sbírky (fotografie, audio, video, e-mail, osobní) ▪ Vybrat nejdůležitější materiály, rozumně popsat (jména souborů, metadata) ▪ Používat rozšířené (otevřené) formáty, důležitá data migrovat na nové Další? Osobní zkušenosti?! Dlouhodobé uchování dat34 3.5 Chmurné perspektivy? ̶ Velké množství digitálních informací již dnes nenávratně ztraceno ̶ Trvale roste množství informací existující pouze v digitální podobě ̶ Stále se rozšiřuje množství formátů dokumentů a médií ̶ Informační technologie zastarávají velmi rychle ̶ Křehkost nosičů digitálních záznamů ̶ Při vytváření digitálních zdrojů není počítáno s náklady na archivaci ̶ Snižování rozpočtů pro knihovny a archivy ̶ Nesmyslné ochranářské trendy omezující dostupnost info (právo být zapomenut) „There is, at present, no way to guarantee the preservation of digital information. The first line of defense against loss of valuable digital information rests with the creators, providers, and owner of that information. It’s every man for himself.“ U.S. Commission on Preservation and Access. Final report of a Task Force on the Archiving of Digital Information. 1996 Dlouhodobé uchování dat35 3.5 Chmurné perspektivy? Analog objects can survive with minimal care for centuries, but no electronic format can hope to persist more than a short while without careful (and perhaps expensive) intervention. There will be no digital equivalent of the Lascaux cave paintings, Mayan stone scripts, Dead Sea scrolls, or other kinds of rediscovered ancient knowledge. Building Preservation Partnership. The LoC NDIIP Program Dlouhodobé uchování dat36 4. The Long Now Dlouhodobé uchování dat37 4.1 The Long Now "When I was a child, people used to talk about what would happen by the year 2000. For the next thirty years they kept talking about what would happen by the year 2000, and now no one mentions a future date at all. The future has been shrinking by one year per year for my entire life. I think it is time for us to start a long-term project that gets people thinking past the mental barrier of an ever-shortening future. I would like to propose a large (think Stonehenge) mechanical clock, powered by seasonal temperature changes. It ticks once a year, bongs once a century, and the cuckoo comes out every millennium." Daniel Hillis, The Long Now Foundation http://www.longnow.org The Long Now Foundation was established in 01996 to creatively foster longterm thinking and responsibility in the framework of the next 10,000 years. Dlouhodobé uchování dat38 4.2 The 10.000 year Clock ̶ Ikonický projekt pro dlouhodobé uvažování ̶ Postavit mechanické hodiny (udržovatelné „technologiemi doby bronzové“) které přežijí a budou fungovat 10 tisíc let! ̶ Výzvy: • Jaké použít materiály, technologie, aby vydržely • Čím hodiny pohánět • Jak udržovat přesný čas po tak dlouhou dobu • Jak prezentovat čas/datum na hodinách budoucím uživatelům • Ochrana proti vandalství (aby lidé hodiny sami nezničili), … ̶ 01999 prototyp: 28bitový mechanický počítač (Science Museum, Londýn) ̶ Zakoupen pozemek v poušti v Texasu ̶ Výstavba hodin ve skále (výška 200 stop) Dlouhodobé uchování dat39 Workers install the 10,000 Year Clock inside an underground chamber in Texas. (Long Now Foundation) Dlouhodobé uchování dat40 4.3 Rosetta Disc ̶ Dlouhodobý lingvistický archív a překladatelský nástroj pro obnovu jazyků ztracených v hluboké budoucnosti ̶ Inspirace Rosettskou deskou (rozluštění egyptských hieroglyfů) ̶ Paměťové médium: 3“ niklová deska, litograf. nano-technologií vyrytý analogový text a obrázky (až 200.000 stran, životnost 2K-10K let) ▪ Archiv (Languages of the World) ▪ Cíl: lingvisticky podrobně zdokumentovat 7.000 současných jazyků světa ▪ Pro každý jazyk stejná struktura informací: podrobný lingvistický popis jazyka, fonologie, gramatika, stejné texty (Genesis, OSN – Deklarace lidských práv), mapy a další ▪ Aktuální stav: 70.000 stran o 2.500 jazycích ̶ Rosettský disk v1 ▪ 13.000 stran informací o 1.500 jazycích ▪ čitelné při 650násobném zvětšení ▪ dar při 10 000 Membership (předávat z pokolení na pokolení) Dlouhodobé uchování dat41 Diskuse