Unikátní archivační řešení společnosti Piql.
29. 10. 2015
Nápad ukládat digitální informace na celuloidový pás může v dnešní době mnohým připadat přinejmenším podivný. Nabídku datových úložišť lze bez přehánění označit za nepřebernou a cena za uložený MB neustále klesá. A přesto společnost Piql vloni přišla s řešením založeným na nepřepisovatelném a poněkud staromódní médiu. Navíc to vypadá, že tento přístup má poměrně pozitivní ohlas.
Archivace není problém?
Než se pustím do popisu technologie, zkuste si představit následující situaci. Máte za sebou mnoholetou práci, na jejímž konci je soubor dat, o jehož mimořádné hodnotě jste přesvědčeni a rádi byste jej zachovali pro příští generace. Tedy ne jen do vyplacení posledního honoráře, ani po dobu setrvání v příslušné instituci, ale opravdu dlouho, třeba 100 let. Na jaké médium byste data uložili? Pokud v duchu začnete porovnávat životnost jednotlivých technologií, zkuste si uvědomit, že výpočetní technika prodělává neustálý vývoj a to v podstatě na všech frontách. Mění se nosiče, jejich rozhraní, způsob ukládání, způsob formátování, operační systémy a s nimi potřebné ovladače. V podstatě stačí jedna nepodporovaná komponenta a záznam již nepřečtete. Na výběr toho správného úložiště pro LTP (Long-Term Preservation, česky dlouhodobé uchování dat) proto zatím existuje jediný, byť nepříliš populární návod - celý proces opakovat a data přesouvat (migrovat). Jinými slovy jednou za čas, například každých šest let, najít aktuálně nejvhodnější řešení a všechna data přesunout na nové úložiště. Samozřejmě to musíte udělat tak, abyste o nic nepřišli, případně data můžete překódovat do aktuálně podporovaných formátů. Výše uvedený postup určitě není zadarmo, navíc vyžaduje dost úsilí a z dlouhodobé perspektivy i plánování a strategii. A teď si přestavte klasický nosič, jako například knihu, která 100 let v pohodě přečká bez nějaké nákladné péče a přečtete si ji vždy bez ohledu na technologie (samozřejmě pokud ovládáte abecedu a příslušný jazyk). Jenomže datová kapacita knihy je omezená, nehodí se pro uložení například pohyblivého obrazu a špatně se kopíruje. Proto se mimo jiné začaly používat pro archivaci mikrofilmy a například v roce 1935 se na ně začal ukládat The New York Times. Odsud je již jen krůček k úvodu zmíněnému nápadu.

V podstatě ověřený postup
Norská společnost Piql, původně Cinevation, si vybudovala slušnou reputaci v oblasti snímání a zápisu na filmové pásy, v nabídce měli třeba první rekodér pro zápis na 35mm film v reálném čase. Před příchodem digitálního kina to byla velmi zajímavá oblast, například speciální efekty vyžadovaly jak nasnímání natočených podkladů pro trikové záběry, tak i zpětný zápis výsledných scén na film. Filmové scannery se uplatní i nadále při digitalizace filmových fondů, ale zápis na film již přestal být žádanou službou. Barvy na pásu totiž blednou, z hlediska dlouhodobé archivace se tak nejedná o zcela optimální řešení. Pokud se ale barvě vyhnete a uložíte data v digitální podobě, potenciál pro dlouhodobé uchování najednou výrazně vzroste, Piql u svého média uvádí životnost více než 500 let (s odvoláním na normy ISO 18911, ISO 18924 a ISO 18936). Výhoda takto uložených dat spočívá v optickém čtení, stačí scanner s dostatečným rozlišením a aplikace pro dekódování (na principu OCR), která je k dispozici jako OpenSource. Pokud bude známý způsob kódování, není se třeba obávat technické evoluce a tolik neoblíbená migrace dat odpadá. Samozřejmě se jedná o jednorázový zápis bez možnosti modifikace uložených dat, tedy úložiště typu WORM (Write-Once, Read Many), což ale pro dlouhodobé uchování určitého typu dat nemusí vadit.


Celý proces vychází ze známých postupů, data se nejprve zkontrolují, připraví do formátu určenému pro dlouhodobou archivaci, spočítá se kontrolní součet, uloží se do databáze, a takto připravený obsah se pošle zákazníkovi pro finální kontrolu. Po schválení se data zakódují pro zápis, přesněji zvýší se redundance pro opravu případných chyb při čtení, způsobených například poškozením média. Používá se technika CIRC (Cross-Interleaved Reed-Solomon Code) známá z dalších optických nosičů (třeba DVD) a z vlastní zkušenosti možná víte, že se jedná o poměrně robustní ochranu. Platí se za to snížením kapacity, nárůst dat potřebných pro tento způsob ochrany je okolo 23%. Upravená data se zapisují na celuloidový pás po jednotlivých políčkách, na začátku každé cívky se vkládají prázdná (šedá) políčka, referenční značky a blok s metadaty pro celou cívku. Metadata zahrnují kromě popisných i technické informace potřebné pro dekódování uloženého obsahu, například způsob ochrany proti chybám, uspořádání každého políčka, počet bitů pro obrazový bod nebo TOC (Table Of Contents). V tomto bloku jsou metadata uložena jak digitálně, tak klasicky jako text, čili je lze přečíst jen s použitím světelného zdroje a lupy. Každé následující políčko s obsahem (datová kontejner) má přesně definovaný formát se značkami v rozích, referenčními a metadatovými rámečky. Část metadat je opět uložená jak člověkem čitelný text. Aby se riziko ztráty dat minimalizovalo, jednotlivá políčka obsahují rovněž metadata s kontrolními součty, vše kódované s použitím větších bloků (ploch odpovídajícím pixelům/bitům). Samotný zápis probíhá rychlostí 40 MB/s na film označovaný výrobcem jako piqlFilm, optimalizovaný speciálně pro vysoké rozlišení (s krystaly halogenidů stříbra o velikosti 20-40µm). Nicméně se stále jedná o v podstatě klasický materiál, čili zakládání a vyjímání pásu musí probíhat ve tmě a zapsaný film je třeba vyvolat. Pro manipulaci a uložení se cívka ukládá do plastového boxu označeného štítkem pro elektronickou evidenci. Posledním krokem po vyvolání je verifikace zapsaných dat, veškeré informace se naskenují, obsah každého políčka se dekóduje a porovná s původními daty, současně se ověří i kontrolní součty uložené v databázi.


Technické parametry a proces čtení
Pravděpodobně vás již napadla otázka, jak je to s kapacitou dat, rychlostí čtení a přístupu, zkrátka parametry uváděné u každého datového úložiště. Podle výrobce se na aktuální provedení filmu o délce 1000m vejde maximálně 112 GB, což je přibližně 1,6 MB na políčko. Pokud použijete film s menší denzitou, což samozřejmě lze, využitelná kapacita se sníží. Čtení probíhá optickou cestou, čili záleží na parametrech scanneru. Jelikož obraz je ukládán v rozlišení 4K, scanner by měl disponovat senzorem s 3x vetším rozlišením, tedy 12K. Společnost Piql zatím nabízí jen vlastní skener, nicméně nevylučuje použití zařízení od jiného výrobce. Rychlost čtení při použití technologie Piql je 5 MB/s, proces dekódování probíhá paralelně a skener má vlastní úložiště o velikosti 13,6 TB. Vzhledem k tomu, že data jsou uložena sekvenčně na filmovém pásu, chcete-li přečíst jen jejich část, musíte příslušné místo nejprve na cívce najít. Součástí řešení Piql je proto soubor, který může být součástí systému pro správu datového skladu (WMS - Warehouse Management System) dovolující lokalizaci příslušného místa na pásce. Jako u všech řešení pro bezpečné uchovávání dat je důležitá integrace všech komponent archivačního systému, zejména pokud používáte některé komponenty jako službu.

Budeme stavět nové „filmové“ archivy?
Na masové rozšíření technologie to vzhledem k náročnosti čtení a zápisu zřejmě zatím moc nebude, momentálně se řešení nabízí jako služba, i když dostupná v různých zemích, (včetně České a Slovenské republiky). Pokud výše uvedené kapacity a rychlosti srovnáte například se současnou generací Blu-Ray technologie, nevychází z něj Piql úplně nejlépe. Čtyřvrstvé Blu-Ray médium pojme 128 GB, při osminásobné rychlosti je maximální datový tok 36 MB/s a na trhu jsou i SATA mechaniky s rychlostmi 12x/16x (čtení/zápis, pro jednovrstvé BD-R). Pro technologii Blu-Ray ale platí v úvodu zmíněný problém se zastaráváním celého řetězce, čili migraci se pravděpodobně nevyhnete, i když vám samotné médium vydrží. Proto společnosti Piql nelze upřít vykročení směrem, který v některých případech může dávat smysl, zvlášť když se v Piqlu archivaci snaží pojmout systémově a pracují například s metadaty čitelnými přímo člověkem. Instituce tak mají další variantu jak data uložit, založenou na ověřených postupech a navíc s náklady, které lze vyčíslit nyní, ne jen věštit z křišťálové koule.
Bohuš Získal