Cyfrowy ślad: utracone na zawsze, jednak niezapomniane…

Karol Król

Erę demokratyzacji informacji charakteryzuje niespotykane dotąd uwolnienie treści cyfrowych*. Według Penny Carnaby [2009] wszyscy jesteśmy częścią pokolenia, które na masową skalę usuwa treści (delete generation).
Delete generation to metafora opisująca skalę i tempo bezpowrotnej utraty treści cyfrowych tworzonych globalnie przez użytkowników z całego świata. Według Carnaby „co sekundę, każdego dnia ludzie na całym świecie usuwają swoją historię, swoje myśli, wypowiedzi, które w dzisiejszych czasach są prezentowane w środowisku cyfrowym”. Taki punkt widzenia ma nieco „katastroficzne zabarwienie”. Można tu poszukać analogii do świata analogowego – mnogość cyfrowych treści odpowiada mnogości niepowtarzalnych, „analogowych rozmów” i dyskusji, zapisków „na serwetkach” i wytarganych skrawkach gazety, graffiti i wielu innych form utrwalania złotych myśli. Czy wszystkie te wypowiedziane lub zanotowane słowa mają wartość? W jakim stopniu są możliwe do zachowania i czy są warte zachowania? Nikt przecież nie utrwala milionów niepowtarzalnych rozmów i zapisków poczynionych na różnych powierzchniach, mniej lub bardziej trwałych. Zatem dlaczego toczy się dyskusja o „szczególnej wartości” i „szczególnej potrzebie” zachowania milionów zapisków cyfrowych? Ze względu na ich cyfrowy charakter(?), tzn. formę i treść? A może dlatego, że tradycyjne formy komunikacji zanikają lub „kurczą się” na rzecz przestrzeni cyfrowej, przenoszą się do świata cyfrowego? A może właśnie dlatego, że istnieje możliwość ich zapisania, zachowania i przechowywania, podczas gdy jest to niemożliwe w zakresie ich analogowych odpowiedników?

Według Thouvenin i współautorów [2018] internet jest unikalnym źródłem wiedzy – „archiwizacja treści internetowych oferuje możliwość zrozumienia bieżących wydarzeń i ich rozwoju z perspektywy historycznej”. Według UNESCO [2003] dziedzictwo cyfrowe składa się z unikalnych zasobów ludzkiej wiedzy i ekspresji. Dlatego też z efemerycznym charakterem treści internetowych wiąże się bezprecedensowe zagrożenie utraty cyfrowego dziedzictwa kulturowego, co w przyszłości może utrudnić zrozumienie naszej epoki. Penny Carnaby przekonuje, że jako społeczeństwo jeszcze nie rozumiemy konsekwencji utraty danych. Nie mamy też pełnego obrazu, czy to ma tak naprawdę znaczenie, w szczególności w aspektach ekonomicznym, społecznym i kulturowym.

*Jednak, czy aby na pewno? Coraz liczniejsze są głosy o cenzurowaniu i blokowaniu treści, usuwaniu kont użytkowników w całości, uniemożliwianiu monetyzacji treści, w szczególności tych publikowanych w mediach społecznościowych. W niektórych środowiskach trzecia dekada XXI wieku określana jest wręcz „erą cenzury internetu”.

Archiwa Cyfrowe

Ponieważ większość treści internetowych jest dostępna wyłącznie w formie elektronicznej istnieje ryzyko, że zostaną utracone na zawsze. Brak długoterminowej dostępności treści internetowych został uznany za jedną z najistotniejszych słabości internetu. Aby uniknąć tzw. cyfrowej czarnej dziury (digital black hole), uruchamiane są archiwa treści zamieszczanych w internecie, zarówno instytucjonalne, jak i oddolne [Thouvenin i in. 2018].
Archiwa cyfrowe to zbiory podstawowych źródeł, takich jak listy, dzienniki, czasopisma, mapy, zdjęcia i wywiady, które zostały zdigitalizowane i umieszczone w internecie [Bolick 2006].

Nie można zarchiwizować całej sieci ze względu na jej stale rosnący rozmiar i szybko zmieniającą się strukturę. Co więcej, nawet zachowane części są niekompletne na kilku poziomach [Huurdeman i in. 2015].

Głównym celem archiwizacji cyfrowej jest pozyskiwanie i przechowywanie informacji w taki sposób, aby można je było eksplorować w dowolnym momencie w przyszłości [Ludäscher i in. 2001]. Z kolei archiwum internetowe (web archive), np. Internet Archive, można przedstawić jako zestaw serwerów internetowych, które „buforują migawki różnych witryn w regularnych odstępach czasu, a następnie udostępniają je publicznie” [Bercic 2005].

Sieć jest efemeryczna. Wiele zasobów ma reprezentacje, które zmieniają się w czasie, jednocześnie wiele z nich jest traconych na zawsze. Nielicznym „szczęśliwcom” udaje się ponownie pojawić, jako zarchiwizowane zasoby, które mają własne identyfikatory URI [Van de Sompel i in. 2009].

Archiwizacja internetowa to proces gromadzenia danych opublikowanych w sieci, które od zawsze miały charakter cyfrowy (digital born content). Archiwizacja internetowa obejmuje „proces gromadzenia fragmentów World Wide Web, zachowania zbiorów w formacie archiwalnym, a następnie udostępniania archiwów [Huurdeman i in. 2015]. Archiwa internetowe przyczyniają się również do zachowania treści, które utworzono w formatach innych niż cyfrowe i które zostały później zdigitalizowane i opublikowane online. Archiwa internetowe sprawiają, że możliwe jest przeglądanie przynajmniej fragmentu treści internetowych, które zniknęły z miejsca, w którym były pierwotnie opublikowane.

Każde archiwum internetowe jest wysoce niekompletne, przez co rekonstrukcja utraconej sieci ma kluczowe znaczenie dla korzystania z tych archiwów [Huurdeman i in. 2015].

Huurdeman i współautorzy [2015] przekonują, że archiwa internetowe próbują zachować szybko zmieniające się zasoby sieci, ale zawsze będą niekompletne. Ze względu na ograniczenia dotyczące głębokości indeksowania, częstotliwości indeksowania i restrykcyjne zasady wyboru treści do zachowania, duże części sieci są niearchiwizowane. Będą zatem niedostępne dla przyszłych pokoleń.

Digital landfill – cyfrowe składowisko

Erze notorycznej i bezpowrotnej utraty danych towarzyszą „cyfrowa ciemność i cyfrowa amnezja”, a wszystko to odbywa się na cyfrowym składowisku, które ulega ciągłemu rozpadowi/rozkładowi, czy wręcz gniciu (digital dark ages, digital amnestia, digital landfill, bit rot, link rot) [zob. Król i Zdonek 2019]. Według Conway [1996] digital dark age to przestrzeń wypełniona mitem i spekulacjami; pustka pełna obaw o zachowanie „wszystkiego co cyfrowe” i relacjonowanie (odtwarzanie) przeszłości bez dowodów źródłowych. Czy czeka nas „cyfrowa apokalipsa”?
I znowu katastroficzna wizja – „Każdy z nas usuwa cenne informacje, często nieumyślnie”. Jednak przeważająca większość to cyfrowe śmieci, już nawet nie „cyfrowe treści”, a jedynie pliki, zbędne bajty. W tym miejscu autorka zadaje pytania: „Czy nie jest tak, że jako społeczeństwo osądzamy, co jest dobrą treścią (i dlatego warto ją zachować), a co przejściowe, mało ważne? Przecież w przypadku treści analogowych, jeśli coś zostało opublikowane, czy nie uważamy, że warto to zachować? Zatem co decyduje o tym, że dane treści cyfrowe są warte zachowania?”. Carnaby [2009] zauważyła, że w badaniach wykazano już, że treści tworzone przez społeczność/obywateli mają wartość, jednocześnie jednak panuje „ogłuszająca cisza” w temacie ich ochrony i zachowania. Ogólnie uznaje się, że treści tworzone przez obywateli są równie ważne, co treści „formalne” (tzn. ewidencjonowane, ISBN, ISSN itd., etc.), jednak kluczową kwestią jest sposób w jaki mają być pozyskiwane, zachowane i udostępniane dla przyszłych pokoleń (w nieskończoność!). Być może umożliwi to Digital Vellum – cyfrowa migawka w służbie ludzkości. Pocieszające jest, że chociaż niezarchiwizowane strony internetowe zostają utracone na zawsze, nie zostają zapomniane w tym sensie, że zaindeksowane strony zawierają różne dowody ich istnienia [Huurdeman i in. 2015]. Pozostaje po nich cyfrowy ślad.

Źródła

Bercic, B. (2005). Protection of personal data and copyrighted material on the web: the cases of Google and internet archive. Inf Commun Technol Law, 14(1), 17-24. https://doi.org/10.1080/1360083042000325283
Bolick, CM. (2006). Digital archives: democratizing the doing of history. Int J Soc Educ, 21(1), 122-134.
Carnaby, P. (2009). Citizen-created content, digital equity and the preservation of community memory. 75th IFLA General Conference and Council (pp. 1–10). Milan: World Library and Information Congress. [Google Scholar]
Conway, P. (1996). Preservation in the Digital World. CLIR Publications, available at: www.clir.org/pubs/reports/conway2/index/
Huurdeman, H.C., Kamps, J., Samar, T. et al. (2015). Lost but not forgotten: finding pages on the unarchived web. International Journal on Digital Libraries, 3-4(16), 247–265. doi:10.1007/s00799-015-0153-3
Król, K., Zdonek, D. (2019). Peculiarity of the bit rot and link rot phenomena. Global Knowledge, Memory and Communication, 69(1/2), 20-37. doi:10.1108/GKMC-06-2019-0067
Ludäscher, B., Marciano, R., Moore, R. (2001). Preservation of digital data with self-validating, selfinstantiating knowledge-based archives. ACM SIGMOD Rec 30(3), 54-63.
Thouvenin, F., Hettich, P., Burkert, H., Gasser, U. (2018). 4 Web Archives. In: Remembering and Forgetting in the Digital Age. Law, Governance and Technology Series, Vol. 38. Springer, Cham, doi:10.1007/978-3-319-90230-2_6
UNESCO (2003). Charter on the Preservation of Digital Heritage, https://bit.ly/unesco-digital
Van de Sompel, H., Nelson, M. L., Sanderson, R., Balakireva, L. L., Ainsworth, S., Shankar, H. (2009). Memento: Time travel for the web. arXiv preprint arXiv:0911.1112.