Co oznacza, że treści dryfują? Czym są „zatęchłe dzielnice” i jak się to ma do zjawiska link rot?

Istnieją dwie zasadnicze sytuacje, w których linki mogą zostać uznane za dysfunkcyjne: (1) link rot (Mary P. Benbow 1998) oraz (2) content drift (Zhou i in. 2015). Obydwa zjawiska są najczęściej omawiane (i badane) w kontekście odwołań do źródeł internetowych w publikacjach naukowych.
Słowa kluczowe: link rot, content drift, document persistence, audyt linków, link analysis, stale neighbourhoods

Ze względu na popularność Internetu rośnie tendencja do cytowania (przywoływania, przytaczania, odwoływania się) w artykułach naukowych oraz popularnonaukowych, ale także we wszelkich publikacjach internetowych, do zasobów dostępnych w sieci, przede wszystkim plików i treści – hiperłącza są wszakże fundamentem Internetu. Często jednak, ze względu na dynamiczny charakter sieci, linki mogą stać się niedostępne („zgniłe”, rotten). To nie wina samych odnośników a zasobów, które z różnych przyczyn przestały istnieć pod danym adresem (internetowym). Zjawisko link rot jest poniekąd konsekwencją złego zarządzania zasobami oraz (hiper)powiązaniami między tymi zasobami.

Zjawisko content drift

Z technicznego punktu widzenia informacje zamieszczane w sieci są niestabilne. Ogólnie rzecz biorąc, istnieje jedna elektroniczna kopia dokumentu, często bez papierowego odpowiednika. Ta pojedyncza kopia może być aktualizowana i zmieniana tak często, jak chce tego autor. Ponadto adres elektroniczny tej kopii może ulec zmianie. Zatem każdy, kto uzyskał dostęp do takiego dokumentu, może go nie znaleźć w miejscu, w którym się znajdował, lub stwierdzić, że treść zmieniała się w stosunku do poprzedniej wersji (oryginału?) (Smith 1996).

Content drift w wolnym tłumaczeniu oznacza „zmianę treści”, „dryf zawartości” lub „dryfowanie treści”. W skali globalnej content drift oznacza ciągły, powolny ruch treści z jednego miejsca w drugie (a continuous slow movement from one place to another).

Dryf zawartości może być oczywisty lub „podstępny”
Dryf zawartości może być oczywisty, gdy treść linku (anchor tekst) sugeruje inną zawartość, lub „podstępny”, gdy treść pod danym adresem może zmieniać się dynamicznie, co może wynikać z charakteru źródła (np. strona z wiadomościami) i uległa zmianie (najczęściej bez informowania o tym użytkowników) [„content drift, either obvious where the link points to something entirely different, or insidious when the content at the end of the link is dynamic (e.g. a news website) and has changed” (Burnhill, Mewissen, Wincewicz 2015)].

But for those of us who make our livings linking to other things on the internet, it’s simply a fact of life that most of our links will die (Salomon 2013).

Trudno powiedzieć, które zjawisko jest gorsze – link rot czy content drift. W obydwóch przypadkach użytkownik nie otrzymuje tego, na co wskazuje treść linku (anchor tekst). Jednak w przypadku link rot dany zasób przeważnie nie istnieje (404 Not Found). Komunikat jest klarowny. Natomiast w przypadku content drift wywoływany jest zasób inny niż spodziewany, lub co gorsze, zasób, który został zmodyfikowany względem pierwotnego – treść na przestrzeni czasu uległa zmianie, mogła zostać zastąpiona inną lub zmodyfikowana. Zittrain i współautorzy (2014) zwrócili uwagę, że podmiot dostarczający materiał źródłowy może zmienić swoje poglądy i „zaktualizować” oryginalne źródło, aby odzwierciedlić zmieniające się poglądy [„The organization providing the source material may change its views and «update» the original source to reflect its evolving views.”]. Co ważne, użytkownik nie musi być świadomy tego, że pierwotnie pod danym adresem były inne treści. Ponadto wiele serwerów, w przypadku braku strony lub innego zasobu nie zwraca kodu 404. Zamiast niego prezentowana jest strona zastępcza i kod „OK” (200). Strona zastępcza (substitute page) czasami podaje pisemny komunikat o błędzie, czasami jest przekierowaniem do strony głównej, a czasami nie ma nic wspólnego z oryginalną stroną. Badania pokazały, że tego rodzaju substytucje, zwane „miękkimi 404” (soft-404s), stanowiły ponad 25% martwych linków (Bar-Yossef i in. 2004).

Zjawisko content drift można często zaobserwować w mediach społecznościowych, w przypadku dynamicznie generowanej treści /przez użytkowników/ (user generated content). Nieprzemyślane wypowiedzi są często zmieniane, łagodzony jest ton wypowiedzi, usuwane są znaczące sentencje lub istotne akapity. Content drift spowodował, że kontrowersyjne wypowiedzi bywają zapisywane w plikach graficznych (zrzuty ekranu) co ma zapewnić ich utrwalenie. Ma to szczególne znaczenie w dokumentowaniu wypowiedzi w mediach społecznościowych.

Breaking down link rot

Link rot to proces, w którym linki do stron internetowych stają się nieistotne lub z czasem przestają działać, ponieważ witryny, do których odsyłały zniknęły, zmieniły treść lub zostały przeniesione [Link rot: The process by which website links become irrelevant or broken over time, because the actual websites they link to disappear, change content or move to a new location (Parker 2007)]. Martwy link nie musi oznaczać, że dane treści już nie istnieją w Internecie. Być może są w innym miejscu (pod innym adresem), co sprawia, że trzeba się trochę natrudzić aby je odnaleźć [A dead link doesn’t mean the content being accessed doesn’t exist anymore, but it does make it more difficult to find) (Mead 2013)].

Zasoby internetowe mają charakter efemeryczny, przy czym jedne zasoby są bardziej efemeryczne niż inne.

Zjawisko link rot sięga początków Internetu. Jego uciążliwość została zauważona już ponad 20 lat temu, kiedy to Mary P. Benbow (1998) przyrównała kliknięcie w niedziałający link, do „przeniesienia użytkownika na ziemię cyberniczyją” (cyber-no-man’s-land). Negatywne oddziaływanie zjawiska link rot (szrotowisko linków, martwe linki, niedziałające linki) dostrzeżono wtedy na polu odwołań do źródeł bibliograficznych, przytaczanych w opracowaniach naukowych (Fichter 1999, Taylor i Hudson 2000). Zjawisku link rot nadawane są różne nazwy: broken links (Markwell i Brooks 2002, Kobayashi i Takeda 2002), linkrot (Denemark 1996, Taylor i Hudson 2000), link rot, (Fichter 1999, Markwell i Brooks 2003), lub decay and failure (Spinellis 2003). Rumsey (2002) porównał wykorzystanie linków w artykułach poświęconych zagadnieniom prawnym do uciekającego pociągu (runaway train). Wykazał, że w publikacjach naukowych po 4 latach działało jedynie 30% linków, które odwoływały się do zewnętrznych źródeł.

Nielsen (1998) przedstawił zjawisko link rot w sposób obrazowy: linkrot przyczynia się do „rozpuszczenia” swoistej tkaniny (tkanki), jaką jest globalna sieć: istnieje niebezpieczeństwo, że Internet przestanie być spójną siecią połączonych dokumentów hipertekstowych, a zamieni się w zestaw pojedynczych, odizolowanych „wysp informacji” [Linkrot contributes to dissolving the very fabric of the Web: there is a looming danger that the Web will stop being an interconnected universal hypertext and turn into a set of isolated infoislands (Nielsen 1998)].

Według interpretacji APA adres URL jest jednym z najbardziej newralgicznych (krytycznych) elementów sieci, w szczególności w kontekście budowania listy cytowań: jeśli link nie zadziała, czytelnicy nie będą mogli znaleźć cytowanego materiału, a wiarygodność artykułu lub argumentu (cytowanego fragmentu artykułu) ucierpi (APA 2003).

Zatęchłe dzielnice?

W 2004 roku zespół badawczy IBM rozszerzył katalog nietypowych określeń związanych ze zjawiskiem link rot. Informacyjne wyspy Nielsena (info-islands) zostały określone mianem „zatęchłych dzielnic” (stale neighbourhoods) – „Takie dzielnice są identyfikowane tylko przez sfrustrowanych użytkowników, szukających wyjścia z tych «nieświeżych» okolic, z powrotem do bardziej aktualnych miejsc w sieci” [Such neighborhoods are identified only by frustrated searchers, seeking a way out of these stale neighborhoods, back to more up-to-date sections of the web (Bar-Yossef i in. 2004, s. 328)]. Z kolei twórca sieci World Wide Web, Tim Berners-Lee stwierdził, że obowiązkiem webmastera jest przydzielanie identyfikatorów URI, które będą w stanie funkcjonować za 2 lata, za 20 lat, za 200 lat. To wymaga myślenia, organizacji i zaangażowania [It is the duty of a Webmaster to allocate URIs which you will be able to stand by in 2 years, in 20 years, in 200 years. This needs thought, and organization, and commitment (Tim Berners-Lee 1998)].

Audyt linków wewnętrznych

Free Broken Link Checker – Online Dead Link Checking Tool to alternatywa dla osób, które z różnych względów nie korzystają z narzędzi płatnych, a chcą wykonać audyt linków wewnętrznych (internal links) i wychodzących (outbound links). Aplikacja Broken Link Checker weryfikuje zarówno powiązania wewnętrzne (pomiędzy stronami danej witryny), jaki i linki do źródeł zewnętrznych. Nikt przecież nie chce polecać zasobów, które nie istnieją lub przestały istnieć w danej lokalizacji (pod danym adresem internetowym).

Wstęp do encyklopedii linków (Audyt linków — wskazówki, ciekawostki, zalecenia)
Narzędzia pomocne w charakterystyce witryny internetowej (część II)
Wstęp do encyklopedii linków to syntetyczne opracowanie, które przedstawia wybrane, kluczowe zagadnienia związane z zarządzaniem profilem linków. Lektura co najmniej zalecana!

Aplikacja Online Broken Link Checker jest udostępniana bezpłatnie. Audyt witryny można wykonać w tzw. trybie pełnym, który pozwala pozyskać informacje o wystąpieniu każdego martwego łącza (Report all occurrences of each dead link). Dostępny jest także raport wykazujący jedynie „wyraźnie uszkodzone linki” (Report distinct broken links only). Różnica pomiędzy wynikami audytu linków może być znacząca i wynieść nawet kilkadziesiąt punktów procentowych. Wersja bezpłatna Broken Link Checker analizuje jedynie linki tekstowe prowadzące do witryn internetowych (dokumentów hipertekstowych). Aplikacja nie umożliwia weryfikacji linków odsyłających do dokumentów innych niż hipertekstowe np. pdf, doc, xls. Ponadto nie weryfikuje „uszkodzeń” linków przyjmujących postać obrazów (plików graficznych). Mimo to wyniki analizy są przydatne. Aplikacja wskazuje adres URL strony, na której wystąpiło martwe łącze, a także miejsce jego występowania w kodzie HTML. Jest to pomocne przy usuwaniu uszkodzonego linku.

Nigdy więcej błędu 404! No More 404s!

Niedziałające linki się zdarzają. Wynika to z charakteru globalnej sieci, choć hiperłącza „nie psują się same”. Dał temu wyraz Tim Berners-Lee (1998, s. 1): „Co sprawia, że adres URL jest «fajny»? Fajny URL to taki, który się nie zmienia. Jakie rodzaje adresów URL się zmieniają? Adresy URL się nie zmieniają: ludzie je zmieniają.” [What makes a cool URL? A cool URL is one which does not change. What sorts of URL change? URLs don’t change: people change them.].
O ile występowanie „pojedynczych uszkodzeń” jest naturalne, o tyle ich nagromadzenie to już link rot. Szrotowisko linków nie musi jednak wynikać z zaniedbań redakcyjnych, choć bywa – zob. ryc. 1.

Rycina 1. Fragment listy martwych linków, odsyłających do innych witryn
Źródło: pozyskane podczas niezależnego audytu (Online Broken Link Checker)

Link rot bywa także wynikiem ataku złośliwego oprogramowania, kiedy to zestaw zgniłych linków jest aplikowany (wstrzykiwany) w strukturę kodu HTML, bez zgody właściciela witryny (ryc. 2).

Rycina 2. Przykład szrotowiska linków – fragment szkodliwego kodu HTML
Źródło: pozyskane podczas niezależnego audytu

Zminifikowana rekapitulacja

Zjawisko link rot jest typowe dla efemerycznej natury Internetu. Link rot to część natury sieci [Somehow link rot is typical of the ever-ephemeral nature of wired progress. Link rot is the part of the nature of the Web (Merchant 2014)].

Zgnilizna linków i dryfowanie treści stają się nie tyle problemem nawigacji, a zagrożeniem dla prawdziwości (rzetelności) informacji, na których bazujemy (Mead 2014). Nawet jeśli lokalizacja cytatu w Internecie jest stabilna (źródło jest stabilne), jego zawartość może ulec zmianie, przez co kolejni czytelnicy mogą nie mieć możliwości zapoznania się z dokładnie tym samym (cytowanym) materiałem.

Content drift wiąże się z pytaniem: „For instance, is a «webpage» defined by its URI or by its contents?” — czy stronę internetową definiuje jej URI czy zawartość? Przecież brak jest jakiejkolwiek pewności, że treść pod danym adresem URI pozostanie niezmieniona (całkowicie lub częściowo); adres może pozostać, treść niekoniecznie (Ashenfelder 2011). Aplikacja weryfikująca żywotność linków i rejestrująca wszystkie nieudane żądania nie jest w stanie zweryfikować czy zmieniły się treści [An automated link checker visiting a list of URIs and logging all ultimately successful and failed requests would miss these subtleties.].

Na jakość linków, w kontekście oceny danej witryny, nie należy spoglądać jedynie przez pryzmat linków przychodzących (backlinks), a ściślej – jakość witryn linkujących. Profil linków składa się także z linków wewnętrznych i wychodzących. Ich jakość jest równie ważna!

Źródła

Ashenfelder, M. (2011). The Average Lifespan of a Webpage. Library of Congress, blogs.loc.gov
APA (2003). Electronic Sources and Locator Information. American Psychological Association.
Bar-Yossef, Z., Kumar, R., Broder, A., Tomkins, A. (2004). Sic transit gloria telae: Towards an understanding of the web’s decay. Proceedings of the 13th international conference on World Wide Web. New York, NY, USA. DOI: 10.1145/988672.988716
Berners-Lee, T. (1998). Cool URIs don’t change. www.w3.org/Provider/Style/URI
Burnhill, P., Mewissen, M., Wincewicz, R. (2015). Reference rot in scholarly statement: threat and remedy. Insights, 28(2), 55-61. DOI: 10.1629/uksg.237
Denemark, H. (1996). The death of law reviews has been predicted: What might be lost when the last law review shuts down? Seton Hall Law Review, 27(1), 1-32.
Fichter, F. (1999). Do I look like a maid? Strategies for preventing link rot. Online, 23, 77-79.
Kobayashi, M., Takeda, K. (2002). Information retrieval on the Web. ACM Computing Surveys, 32(2), 144-173. DOI: 10.1145/358923.358934
Markwell, J., Brooks, D.W. (2002). Broken links: the ephemeral nature of educational WWW hyperlinks. Journal of Science Education and Technology, 11(2), 105-108.
Markwell, J., Brooks, D.W. (2003). „Link rot” limits the usefulness of Web-based educational materials in biochemistry and molecular biology. Biochemistry and Molecular Biology Education 31(1), 69-72. DOI: 10.1002/bmb.2003.494031010165
Mary P. Benbow, S. (1998). File not found: the problems of changing URLs for the World Wide Web. Internet Research, 8(3), 247-250. DOI: 10.1108/10662249810217867
Mead, D. (2013). The Supreme Court Has a Serious Problem with Link Rot. Motherboard Blog, motherboard.vice.com
Mead, D. (2014). When Will the Internet Defeat Link Rot? Motherboard Blog, motherboard.vice.com
Nielsen, J. (1998). Fighting linkrot. Nielsen Norman Group, https://www.nngroup.com/articles/fighting-linkrot/
Parker, A. (2007). Link rot: how the inaccessibility of electronic citations affects the quality of New Zealand scholarly literature. New Zealand Library & Information Management Journal, 50(2), 172-192.
Rumsey, M. (2002). Runaway train: Problems of permanence, accessibility, and stability in the use of Web sources in law review citations. Law Library Journal, 94(1), 27-39.
Salmon, F. (2013). The spread of link rot. Reuters Blog.
Smith, J. (1996).Sceptics Column. Jim Smith finds that the Internet is no place to do research. Ariadne. Web Magazine for Information Professionals, www.ariadne.ac.uk/issue/1/jim/
Spinellis, D. (2003). The decay and failures of Web references. Communications of the ACM, 46(1), 71-77. DOI:10.1145/602421.602422
Taylor, M. K., Hudson, D. (2000). Linkrot and the usefulness of Web site bibliographies. Reference & User Services Quarterly, 39(3), 273-277.
Zhou, K., Grover, C., Klein, M., Tobin, R. (2015). No More 404s: Predicting Referenced Link Rot in Scholarly Articles for Pro-Active Archiving. Proceedings of the 15th ACM/IEEE-CE on Joint Conference on Digital Libraries. JCDL ’15, ACM, New York, NY, USA, pp. 233-236. DOI: 10.1145/2756406.2756940
Zittrain, J., Albert, K., Lessig, L. (2014). Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Harvard Public Law Working Paper, 127(4), 176-199.