‘Reborn-digital material’ czyli odtwarzanie cyfrowych zasobów

Sieć (WWW) jest sama w sobie ważnym źródłem historycznym, dlatego warto zwrócić szczególną uwagę na zasoby zgromadzone w archiwach internetowych. Zasoby typu „reborn-digital material”, co można tłumaczyć jako „odtworzone zasoby cyfrowe”, będą prawdopodobnie jedynym fragmentem „sieci (pre)historycznej” oraz jedynym źródłem wiedzy historycznej, jaki pozostanie dla przyszłych pokoleń, w tym historyków.

Można to dostrzec już dzisiaj. Wiele zjawisk i wiele zasobów sieciowych, wiele form publikacji treści przestało istnieć – „miasta internetowe”, bezpłatne usługi hostingowe, katalogi i tzw. farmy linków, tzw. presell page – wszystko odeszło lub odchodzi w zapomnienie. Niebawem formy te przestaną być wykorzystywane i znikną z zasobów „bieżącej sieci”.

Macro and Micro Web Archiving

Archiwizacja internetu to dowolna forma świadomego i celowego zachowywania materiałów internetowych (zasobów sieciowych) [Brügger 2011]. Brügger [2005] wyróżnił dwa zasadnicze sposoby archiwizacji zasobów internetu z uwagi na skalę prowadzonych działań: makro i mikro archiwizację.

Archiwizacja internetu w skali makro jest przeważnie prowadzona przez profesjonalne instytucje archiwizujące, które zostały powołane do tego celu. Ma charakter zinstytucjonalizowany i masowy (globalny). Archiwizacja internetu w skali mikro jest przeważnie prowadzona przez podmioty, indywidualne osoby lub grupy osób, które nie wykonuję tego zawodowo. Ma charakter inicjatyw oddolnych i jest najczęściej skoncentrowana na archiwizacji wydzielonych, wybranych zasobów.

Dlaczego archiwizować?

W tym miejscu można zadać pytanie, dlaczego zasoby sieci są w ogóle archiwizowane i czy istnieje potrzeba ich archiwizacji? Według Brüggera [2016] potrzeba archiwizacji zasobów sieciowych wynika przede wszystkim ze stale zmieniającego się charakteru sieci (tzw. efemeryczność sieci) i jej rosnącego znaczenia społecznego, a także wzrostu znaczenia sieci, jako źródła wiedzy historycznej dla przyszłych pokoleń. Wszystko to stanowi prawdopodobnie główny bodziec do archiwizacji zasobów sieciowych.

Zawrotna cyfryzacja

W 2000 roku około 75% wszystkich przechowywanych danych miało charakter analogowy (druk papierowy, materiały filmowe, odbitki fotograficzne, winyl, taśmy magnetyczne itp.). Zaledwie po siedmiu latach, tj. w 2007 roku było to już 7% danych, a w 2012 roku już tylko 2% danych [Mayer-Schönberger 2013, p. 8-9]. Oczywiście nie wynika to z faktu, że wszystkie dane analogowe gdzieś „przepadły” lub zostały zdigitalizowane, chociaż w wielu przypadkach tak się właśnie stało, ale raczej z faktu, że przyrost danych cyfrowych był w tych latach i jest nadal – bezprecedensowy.
W latach 1453-1503, po wynalezieniu prasy drukarskiej, wydrukowano osiem milionów książek, podwajając w ten sposób ilość drukowanych materiałów w przeciągu zaledwie 50 lat. Obecnie, według szacunków Mayer-Schönberger [2013] ilość danych cyfrowych podwaja się co około trzy lata, w przeciwieństwie do materiałów analogowych, których prawie w ogóle nie przybywa (w porównaniu do zasobów cyfrowych).

Google przetwarza ponad 24 petabajty danych dziennie (10¹⁵), czyli tysiące razy więcej niż wynosi objętość zasobów analogowych zgromadzonych w Bibliotece Kongresu (Waszyngton, Stany Zjednoczone). Co godzinę Facebook publikuje ponad 10 milionów zdjęć cyfrowych, a co sekundę na serwery YouTube trafia ponad godzina filmów [Mayer-Schönberger 2013].

Chociaż przytoczone tu liczby można kwestionować, tendencja wydaje się być jasna: jesteśmy świadkami dynamicznego przejścia ze świata analogowego do świata cyfrowego i prawdopodobnie jest to dopiero początek tego zjawiska [Brügger 2016].

Dyskretny kod binarny

Wspólnym elementem wszystkich technologii cyfrowych i obiektów nazywanych „cyfrowymi”, który scala w nich aspekty kultury, sztuki i mediów, jest „dyskretny” kod binarny [Evens 2012]. Evens postrzega ten system liczbowy, złożony z dwóch symboli – zer i jedynek, przez pryzmat liczb [Evens 2012]. Zera i jedynki mogą być jednak interpretowane jako swoiste „litery”, co zmienia postrzeganie cyfryzacji przez pryzmat matematyki (matematyczny) na rzecz tekstu [Brügger 2016]. To drugie podejście można znaleźć w definicji komputera cyfrowego Finnemanna [1999]. Według Finnemanna komputer cyfrowy ma trzy główne cechy: 1) posługuje się mechanicznym alfabetem złożonym ze skończonej liczby liter, z których każda jest pozbawiona znaczenia, 2) posługuje się algorytmiczną składnią oraz 3) interfejsem, który określa semantykę składni [Finnemann 1999; zob. także Brügger i Finnemann 2013, 68-69]. Idea, że zera i jedynki (kod binarny) można interpretować jak litery, a nie cyfry, opiera się na założeniu, że liczby nie są pozbawione znaczenia – 0 oznacza „zero”, 1 oznacza „jeden” – ale aby móc je łączyć za pomocą algorytmu składnia musi być pozbawiona znaczenia, podobnie jak litery, które są łączone w słowa. Wszystkie przytoczone wcześniej cechy komputera cyfrowego [Finnemann 1999] są konieczne jako takie, ale nie są konieczne w żadnej określonej formie [Brügger 2016].

Odtworzone zasoby cyfrowe

Brügger [2012, 2016] zaproponował ogólną typologię zasobów cyfrowych, opartą na pochodzeniu materiału cyfrowego oraz na rozróżnieniu pomiędzy trzema głównymi typami materiałów cyfrowych: materiał zdigitalizowany (digitized), materiał „urodzony cyfrowo”* (born digital) i „odrodzony cyfrowo”* (reborn-digital material). Główną cechą materiału zdigitalizowanego jest to, że jego „przekształcenie w formę cyfrową” odbyło się na podstawie oryginału, który nie był cyfrowy i jeśli nie został całkowicie zniszczony, zagubiony, utracony etc., to stanowi rzeczywisty punkt odniesienia [Brügger 2016].
*w dosłownym tłumaczeniu

Reborn-digital material

Reborn-digital material to zasoby, które w swojej pierwotnej postaci zostały zdigitalizowane i umieszczone w sieci lub miały cyfrową formę „z natury” (natywnie cyfrowe, born digital), a następnie zostały zgromadzone i zachowane (zarchiwizowane), i w jakimś stopniu zostały zmienione w tym procesie. Taki charakter mają zasoby/materiały zgromadzone w archiwach internetowych [Brügger 2012, Brügger 2016].

Reborn Web

Archiwizacja zasobów sieciowych nie zawsze odbywa się w skali 1:1, w stosunku do ich pierwotnej (rzeczywistej, kompletnej) wersji, lub wersji jaka funkcjonowała w danym momencie. Wynika to z wielu czynników, m.in. technicznych, i dotyczy w szczególności treści internetowych np. witryn internetowych [Brügger 2012, p. 109].

Podczas gdy dziedzictwo cyfrowe koncentruje się na materialnych i niematerialnych obiektach dziedzictwa kulturowego oraz ich ochronie, edukacji i badaniach, humanistyka cyfrowa koncentruje się na zastosowaniu technologii cyfrowych do wspierania badań w naukach humanistycznych [Münster i in. 2019].

Cyfrowe kopie przechowywane w internetowych archiwach, w szczególności kopie witryn internetowych, to w pewnym sensie „unikalne wersje” oryginału. Wiele witryn internetowych w swojej pierwotnej, kompletnej wersji zostało utraconych (wykasowanych z serwerów). Nie jest to jednak nic specjalnego. Witryny (serwisy) internetowe potrafią być bardzo rozbudowane. Archiwizacja wszystkich komponentów przez zewnętrzne oprogramowanie (web crawler) może być niemożliwa. W konsekwencji zasoby zgromadzone w archiwach internetowych mogą być niekompletne [Brügger 2012]. Z drugiej strony takie archiwa często przechowują wiele niedoskonałych (wybrakowanych, niekompletnych) wersji tych samych zasobów. Trudno zatem stwierdzić, że archiwa te przechowują kopie, ponieważ są to jedynie kolejne wersje „odtworzonego materiału cyfrowego” (reborn-digital material).

Znaczna część treści publikowanych w internecie znika bezpowrotnie, przy czym „znikanie” oznacza skasowanie z dysków serwerów (delete). Dlatego też w przyszłości historia sieci będzie w dużej mierze pisana na podstawie zarchiwizowanych materiałów internetowych.

Źródła

Brügger, N. (2005). Archiving Websites: General Considerations and Strategies. Aarhus: The Centre for Internet Studies.
Brügger, N. (2011). Web archiving – between past, present, and future. In The handbook of Internet studies. Edited by Mia Consalvo, and Charles Ess. Oxford: Wiley-Blackwell.
Brügger, N. (2012). When the Present Web is Later the Past: Web Historiography, Digital History, and Internet Studies. Historical Social Research, 37 (4), 102-117.
Brügger, N. (2016). Digital Humanities in the 21st Century: Digital Material as a Driving Force. Digital Humanities Quarterly, 10 (3). http://www.digitalhumanities.org/dhq/vol/10/3/000256/000256.html
Brügger, N., Finnemann, N. O. (2013). The Web and Digital Humanities: Theoretical and Methodological Concerns. Journal of Broadcasting and Electronic Media, 57 (1), 66-80.
Evens, A. (2012). Web 2.0 and the Ontology of the Digital. Digital Humanities Quarterly, 6 (2). http://www.digitalhumanities.org/dhq/vol/6/2/000120/000120.html
Finnemann, N. O. (1999). Modernity Modernised: The Cultural Impact of Computerisation. In Computer, Media and Communication. Edited by Paul A. Mayer. Oxford: Oxford University Press.
Mayer-Schönberger, V., Cukier, K. (2013). Big Data: A revolution that will trans form how we live, work, and think. New York: Houghton Mifflin Harcourt Publishing Company.
Münster, S., Apollonio, F. I., Bell, P., Kuroczynski, P., Di Lenardo, I., Rinaudo, F., Tamborrino, R. (2019). Digital cultural heritage meets digital humanities. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci., XLII-2/W15, 813-820, https://doi.org/10.5194/isprs-archives-XLII-2-W15-813-2019