Era utraconych danych – zgnilizna bitów, rozkład danych i cyfrowe popioły

Któregoś dnia (w przyszłości) może się okazać, że wiemy mniej o początkach XXI wieku niż o początku XX wieku. Wiele z tego, co teraz robimy — wiele danych, które umieszczamy w chmurze — rodzi się w formie cyfrowej (born-digital, digital-first). Nie jest to coś, co zdigitalizowano, coś co zostało „przełożone z analogowego pojemnika do cyfrowego pojemnika”. Są to utwory, które powstały w formie cyfrowej, a teraz coraz częściej umierają jako treść cyfrowa, nie pozostawiając żadnego analogowego odpowiednika (Rick West, Google) [Wernick 2018].

Disc Rot

Keywords: digital preservation, data degradation, corruption of computer data, bit decay, data rot, data decay, silent corruption, disc rot, software rot, digital ashes, digital relics, gradations of preservation, era of lost data, rights of preservation

Era utraconych danych

Żyjemy w erze utraconych danych (era of lost data), określanej jako „digital dark age” (cyfrowa ciemna era?) lub „informational black hole”. Określenia te opisują zjawisko „uciekania formatów”, czy też „wymazywania plików”. Dotyczą niemożności zarchiwizowania wszystkich danych, które nigdy dotychczas nie starzały się tak szybko, i które z łatwością powstają dziś w ogromnych ilościach, i z jeszcze większą łatwością są usuwane. Określenie te oddają obawę o niemożność odzyskania masowo kasowanych plików, danych utraconych w awariach, likwidowanych domen i serwerów**. Gdzie podziały się dane z kont hostingowych? Na naszych oczach powiększyła się „internetowa czarna dziura” w historii polskiego Internetu.

** W 2018 roku zlikwidowano w Polsce serwis bezpłatnych usług hostingowych Republika WWW – usługi te były wykorzystywane przez bardzo różne podmioty, z największą częstotliwością w latach około 2002-2010. Tysiące adresów w domenie ‘republika’ zniknęło pozostawiając ogromne szrotowisko linków «w tym przypadku przyjmujące postać zjawiska content drift». W 2017 roku „zlikwidowano” katalog witryn internetowych Onet oraz liczne platformy blogowe — potężne repozytoria danych nie będzie już dostępne.

Z biegiem czasu cyfrowe informacje zapisane na różnych nośnikach informacji i w różnych formatach mogą ulegać rozkładowi lub degradacji (can decay or degrade), jeśli nie będą odpowiednio przechowywane lub będą poddawane innym niekorzystnym procesom.

Cyfrowe informacje, które tworzymy obecnie, mogą nie być odczytywane przez maszyny i programy komputerowe w przyszłości. Wszystkie te dane, cyfrowa historia naszego stulecia (our century’s digital history) są zagrożone — nie ma fizycznej dokumentacji dla większości materiałów cyfrowych. Istnieje obawa, że wybranych treści (pewnego fragmentu cyfrowego dorobku) nie uda się odzyskać. Ponadto dane przechowywane w formie elektronicznej „rozpadają się” (bit rot). Wiele dyskietek z wczesnej epoki cyfrowej jest już nieczytelnych. Przy odrobinie szczęścia kopie różnorakich materiałów będą dostępne w bibliotekach publicznych. Jednak płyty CD nie wytrzymają więcej niż kilka dekad. To niepokoi archiwistów i archeologów i stanowi zawiłe wyzwanie technologiczne [Wernick 2018]. Wszystko to jest określane jako zjawisko bit rot.

Bit Rot

Termin bit rot (zgnilizna bitów) opisuje powolne pogarszanie się wydajności (dostępu) i integralności danych przechowywanych na nośnikach pamięci. Określenie to znane jest również pod nazwami: „bit decay, data rot, data decay and silent corruption” (w wolnym tłumaczeniu: zgnilizna danych, zanik danych lub cichy rozkład danych) [Rouse 2019]. Bit rot to zjawisko utożsamiane z utratą danych, starzeniem się plików i formatów [Hayes 1998]. Zjawisko „bit rot” opisuje utratę danych z powodu jednego z wielu zjawisk. Bit rot to niezdolność dzisiejszej generacji systemów komputerowych do wczytania (odczytania) produktu z „wczorajszego dnia” [Pitt 2019]. Termin bit rot jest spokrewniony z terminem „software rot” (w wolnym tłumaczeniu: zgnilizna oprogramowania, psucie się oprogramowania, niemożność skorzystania z oprogramowania lub sprzętu komputerowego, starzenie się oprogramowania). Stare pliki, gry** i inne dane stają się bezużyteczne, ponieważ nie istnieje już powszechnie dostępne środowisko/ekosystem odczytu – sprzęt i oprogramowanie [zob. Wernick 2018].

** Bit rot powoduje, że wielu gier komputerowych uważanych za „klasyczne” nie można już uruchomić na najnowszych komputerach, przede wszystkim z uwagi na brak zgodności z systemem operacyjnym – starego kodu nie można już odtwarzać na nowoczesnych maszynach. Aby uruchomić „stare tytuły” często konieczne są emulatory, duplikujące funkcje starszych systemów operacyjnych.

Data Rot

Ile sprzętu trafiło na szrot z powodu zmiany systemu operacyjnego na Windows 10? Zmiana systemu operacyjnego, edytora tekstu etc. (pamiętasz zmianę formatu doc na docx?) może spowodować, że urządzenie lub oprogramowanie dotychczas wykorzystywane stanie się bezużyteczne np. z uwagi na brak sterowników. Stanie się „niekompatybilne”. To wydaje się naturalne i stanowi poniekąd konsekwencję postępu. Postęp ten powinien jednak przebiegać bardziej w modelu ewolucyjnym niż rewolucyjnym, co pozwoliłoby zachować sprzęt i dane (przenieść, przetworzyć, przekonwertować dane). Może się jednak okazać, że zaistnieje potrzeba utrzymania całej infrastruktury niezbędnej do odczytu danego formatu plików – zarówno sprzętu, jak i oprogramowania.

Software Erosion oraz Software Entropy

Bit rot oznacza, że oprogramowanie jest „stare” i stało się wolniejsze niż kiedyś, mniej użyteczne, lub już nie można z niego w ogóle skorzystać. Bit rot jest związane z pojęciami: Software Erosion, Software Entropy, and Software Bloat. Software Erosion to powolne, lecz ciągłe pogorszenie się wydajności oprogramowania, które może ostatecznie doprowadzić do jego zastąpienia innym, wydajniejszym, nowszym. Zjawiska Software Erosion oraz Software Entropy (określenie związane z powiększającą się złożonością oprogramowania, przez co liczbą błędów) bywają opóźniane przez aktualizacje i przywracanie oprogramowania do stanu fabrycznego lub startowego. Software Bloat, w kontekście Bit Rot oznacza oprogramowanie, które udostępnia dodatkowe, często zbędne funkcjonalności. Dodatkowe moduły, komponenty, rozszerzenia zwiększają nasilenie zjawiska bit rot [Hildenbrand 2017].

Bit rot jest stałym problemem w większości długotrwałych projektów oprogramowania. Wraz z ewolucją (rozwojem) oprogramowania w pewnym momencie lepiej przeprojektować system od zera niż go aktualizować (często tak się nie dzieje, a systemy oprogramowania są „wleczone”, ponieważ ryzyko przeprojektowania uważa się za wysokie) [Odersky i Moors 2009].

Składowiska elektroodpadów

Bit rot to określenie, które jest także wykorzystywane do opisana składowisk, wysypisk lub miejsc przetwarzania zużytego sprzętu elektronicznego. Przeważnie określenie to jest używane w przypadku miejsc nieuporządkowanych, zlokalizowanych w krajach trzeciego świata, gdzie ze zużytego sprzętu, często poprzez wypalanie na otwartym powietrzu, odzyskiwane są metale szlachetne.

Bit rot is an Threat to Digital Preservation

Bit rot typu Hardware/Software: żaden niedrogi nośnik cyfrowy nie jest całkowicie niezawodny przez długi czas ponieważ może ulec degradacji (materiał odblaskowy stosowany do nośników optycznych może zacząć się rozpadać – the reflective material used for optical media can start to break down). Badania pokazały, że nośniki CD często są niezawodne jedynie od 2 do 5 lat, a nie jak zapewniają producenci przez dziesięciolecia. Dyski i taśmy magnetyczne również mogą cierpieć z powodu „zgnilizny bitów”. Ponadto bit rot może odnosić się do innych (niewykrytych) błędów przechowywania, które zmieniają pobraną treść, np. błędy w interfejsie sieci lub przepełnienia bufora w systemie operacyjnym etc. (errors in the network interface, software buffer overruns in the operating system, error correction failures in memory, and so forth) [Baker, Keeton, Martin 2005].

Bit rot odnosi się do stopniowej utraty danych (Data Decay). Data decay is a silent killer of data (because data is time sensitive). Istnieją dwie główne klasyfikacje zaniku danych: mechaniczne (Mechanical Data Decay) i logiczne (Logical Data Decay). Mechaniczne zanikanie danych jest prawdopodobnie najbardziej znaną formą zaniku danych. Może być spowodowane np. zawieszeniem się serwera lub uszkodzeniem nośnika danych. Rozpad danych odbywa się na poziomie mechanicznym codziennie, nawet bez udziału użytkownika. Za każdym razem, gdy dane są zapisywane lub odczytywane z nośnika pamięci istnieje szansa, że nastąpi ich utrata, lub że medium ulegnie awarii. Warto zatem podkreślić, że solidna strategia tworzenia kopii zapasowych jest zawsze przydatna.

dysk twardy

Kopie, kopie, i jeszcze raz kopie!

Wydrukuj wszystkie zdjęcia i pliki komputerowe, które uznasz za wartościowe, historyczne i warte ochrony zanim bit rot zamieni je w cyfrowy popiół i znikną na zawsze. Pewnego dnia może nie być aplikacji Microsoft Word lub edytorów zdjęć zgodnych z JPG lub programów Excel, które sprawiają, że wszelkie informacje przechowywane w jednym z tych obecnie używanych formatów są użyteczne. W przyszłości mogą być one niedostępne dla nowej generacji programów, przez co przyszłych pokoleń użytkowników. To zmienia postrzeganie posiadanych (tworzonych) plików i rodzi pytanie o „prawa do zachowania”, (the rights of preservation) „prawa do odczytu lub użytkowania plików, formatów” [Mottl 2015].

Digital vellum

Digital vellum to zdjęcie rentgenowskie ekosystemu cyfrowego wraz z podtrzymującą jego egzystencję infrastrukturą.

Pewnego rodzaju panaceum na zjawisko bit rot jest tzw. digital vellum** (autorem koncepcji jest Dr. Vint Cerf) – swoiste zdjęcie rentgenowskie zawartości dysków, aplikacji i systemu operacyjnego (Preservation of physical bits and meta-data, Preservation of the application and Operating System software), wraz z opisem maszyny, na której działa, i zachowanie jej przez długi czas [X-ray snapshot of the content and the application and the operating system together, with a description of the machine that it runs on, and preserve that for long periods of time.]. Wszystko to w celu zachowania oprogramowania i sprzętu, aby pliki mogły być zapisywane i zachowywane przez pokolenia [Mottl 2015]. Digital vellum zakłada zachowanie sprzętu wraz z oprogramowaniem. Sprzęt ten się jednak zużywa. Nie zwalnia to zatem z posiadania części zamiennych i wykonywania kopii zapasowych.

**Vellum to w języku polskim welin — pergamin wysokiej jakości wykonywany ze skóry zwierzęcej, co miało gwarantować jego trwałość. Welin to obecnie swoisty synonim mocnego, trwałego, luksusowego papieru. Digital vellum jest zatem synonimem trwałego nośnika nie tyle danych, co informacji w ogóle [interpretacja własna].

Źródła

  • Baker, M., Keeton, K., Martin, S. (2005). Why traditional storage systems don’t help us save stuff forever. 1st IEEE Workshop on Hot Topics in System Dependability, HPL-2005-120.
  • Hayes, B. (1998). Bit rot. American Scientist, 86(5), 410-415.
  • Hildenbrand, J. (2017). Bit Rot explained: Why your phone is slower than when it was new. Androidcentral. Mobile Nations. Retrived from: https://goo.gl/rdeXYq
  • Mottl, J. (2015). Internet Pioneer Vint Cerf Warns Of Bit Rot And Digital Dark Age But Don’t Panic Yet. Tech Times. Retrived from: https://goo.gl/Wmo4nu
  • Odersky, M., Moors, A. (2009). Fighting Bit Rot with Types (Experience Report: Scala Collections). Leibniz International Proceedings in Informatics, 4, 427-451. DOI: 10.4230/LIPIcs.FSTTCS.2009.2338
  • Pitt, R. (2019). From Moldy Books to Bit Rot. Retrived from: https://goo.gl/fZZ1eu
  • Rouse, M. (2019). Definition bit rot. TechTarget. Retrieved from: https://searchstorage.techtarget.com/definition/bit-rot
  • Wernick, A. (2018).Scientists warn we’re entering a digital dark age. The Week. Retrieved from: https://goo.gl/URWTqY

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *