Z Ziemi prosto na Księżyc: jak duży jest Internet?

Zasoby informacji rosną w zawrotnym tempie (…) Nie jest to przy tym informacja niejako zestalona czy zastygła w ogromach bibliotek, instytutów uniwersyteckiego pokroju, sztabach militarnych czy giełdach i bankach, lecz raczej informacja w nieustającym ruchu, przemieszczająca się w gąszczach sieci tworzących World Wide Web, pajęczyną łączności, bezustannie rozszerzającej swoje coraz lepsze zastosowania [Bomba megabitowa, Lem 1999, s. 184].

Szacuje się, że w 2023 roku prawie dwie trzecie światowej populacji będzie miało dostęp do Internetu – będzie to około 5,3 miliarda użytkowników, w porównaniu do 3,9 miliarda (51% światowej populacji) w 2018 roku. W 2023 roku liczba urządzeń podłączonych do sieci będzie ponad trzykrotnie większa niż liczba ludności na świecie [Cisco 2020]. Wzrost dostępności i liczby urządzeń w sieci oraz różnorodność ich zastosowań przełożą się na jeszcze więcej wytwarzanych, przesyłanych i przechowywanych informacji.

Hilbert i López [2011] w swoim artykule z 2011 roku opublikowali dane, według których pojemność informacyjna światowej pamięci analogowej i cyfrowej wynosiła 295 optymalnie skompresowanych eksabajtów (optimally compressed exabytes). Kolumna płyt CD-ROM, na której zapisano by 295 eksabajtów (EB) sięgnęłaby Księżyca i jeszcze trochę dalej (przyjmując wysokość 1,2 mm na jedną płytę CD) – odległość ta liczy 238 900 mil, czyli nieco ponad 384 tys. kilometrów. Warto dodać, że do 2007 roku 94% informacji miało charakter cyfrowy, co oznacza, że informacje te zapisane na dyskach CD-ROM utworzyłyby kolumnę wysokości około 452 tys. km [Hilbert i López 2011].

Hilbert i López [2011] wyliczyli także, że całkowita ilość informacji wzrosła z około 2,6 optymalnie skompresowanych eksabajtów w 1986 roku do 15,8 EB w 1993 roku, następnie do ponad 54,5 EB w 2000 roku. W 2007 roku ilość wytworzonych informacji wzrosła pięciokrotnie i wynosiła już 295 optymalnie skompresowanych eksabajtów. Stanowiło to około 539 MB na osobę w 1986 roku i odpowiadało fragmentowi dysku CD-ROM (730 MB). W 1993 roku były to już około 4 CD-ROM-y na osobę, w 2000 roku było to około 12 „płytek”, a w 2007 roku było to już prawie 61 CD-ROM-ów na osobę [Hilbert i López 2011]. W tym samym czasie ilość informacji przekazywanych przez jednokierunkowe sieci nadawcze, głównie telewizję i radio, przyrastała stosunkowo wolno. W ciągu dwóch dekad zwiększyła się „zaledwie” czterokrotnie, tj. z 432 eksabajtów do 1,9 zettabajta (ZB) [Hilbert 2012].

W ciągu ostatnich dziesięcioleci „globalna pamięć technologiczna” podwajała się co 3 lata i urosła z mniej niż 3 eksabajtów w 1986 roku do około 300 EB w 2007 roku. Gdyby zdecydowano się zapisać ją na papierze z wydrukiem dwustronnym, to wydruk ten pokryłby każdy centymetr kwadratowy lądu jednym arkuszem papieru w 1986 roku, jedną warstwą książek do 2007 roku, a do 2010 roku dwoma warstwami książek [Hilbert 2012].

Początek ery cyfrowej

Hilbert i López [2011] wykazali, że rok 2002 był początkiem ery cyfrowej, ponieważ ludzkość w tym roku zaczęła przechowywać więcej informacji w postaci cyfrowej niż na analogowych nośnikach danych. Ta zmiana nastąpiła w mgnieniu oka w kategoriach historycznych. W 1986 roku zaledwie 1% światowych nośników danych było przeznaczonych do przechowywania informacji w formacie cyfrowym. W 2000 roku pamięć cyfrowa stanowiła już 25% nośników danych, a w 2007 roku stanowiła już 97% „światowej pamięci”.

Rok 2002 to początek ery cyfrowej [Hilbert i López 2011].

Na początku lat 90. XX wieku ponad 80% światowych zasobów informacyjnych przechowywanych było w formacie wideo, głównie na analogowych kasetach VHS, kolejne 15% miało format audio (kasety magnetofonowe i płyty winylowe). Do 2007 roku udział wideo (VHS) w światowych zasobach pamięci masowej spadł do 60%, a audio do zaledwie 5%, podczas gdy udział tekstu wzrósł z mniej niż 1% do 20% (m.in. w wyniku dużego przyrostu ilości treści alfanumerycznych na serwery internetowe, dyski twarde i bazy danych.). Era multimediów okazała się w rzeczywistości erą tekstu alfanumerycznego, co jest dobrą wiadomością z punktu widzenia wyszukiwarek [Hilbert 2012].

Jak duży jest Internet?

Rozmiar strony WWW, innego popularnego obiektu badań, jest trudny do oszacowania, ponieważ tylko podzbiór wszystkich stron internetowych jest dostępny za pośrednictwem wyszukiwarek lub oprogramowania do indeksowania stron internetowych. Tymczasem zasoby sieci różnią się dostępnością. Wyróżnić można Surface Web, Deep Web oraz Dark Web [Król 2019]. Badania, w których podjęto próbę oszacowania rozmiaru WWW koncentrują się na sieci indeksowanej przez wyszukiwarki (Surface Web) w konkretnej jednostce czasu [Van den Bosch i in. 2016].

W erze Web 1.0 posiadanie dużego indeksu zapewniało wyszukiwarkom przewagę konkurencyjną, lecz znaczenie wielkości indeksu spadło w ostatnich latach na rzecz trafności wyszukiwań, aktualności treści oraz personalizacji. Znajomość wielkości zindeksowanej sieci daje pogląd na wielkość zasobów internetowych dostępnych dla przeciętnego użytkownika Internetu [Van den Bosch i in. 2016].

W 1998 roku Bharat i Broder podjęli próbę oszacowania rozmiaru indeksowanej sieci jako całości. Oszacowali oni rozmiar World Wide Web na około 200 milionów witryn. Jeszcze w tym samym roku Lawrence i Giles [1998, 1999] przedstawili swoje szacunki, według których sieć liczyła 320 milionów witryn w 1998 roku i 800 milionów witryn w 1999 roku. Sześć lat później Gulli i Signorini [2005] ponowili badania tą samą metodą i oszacowali wielkość sieci na około 11,5 miliarda stron [Van den Bosch i in. 2016]. Według obliczeń Van den Bosch i in. [2016] w połowie marca 2016 roku istniało co najmniej 4,66 miliarda stron internetowych, jednak badaniami objęto jedynie przeszukiwalną sieć (Surface Web), z pominięciem głębokiej sieci [Van den Bosch i in. 2016].

Pierwsza strona internetowa pojawiła się w 1991 roku. Trzy lata później w internecie było prawie 3000 witryn internetowych. Od tamtego czasu liczba stron internetowych przekroczyła 1,5 miliarda.

Według różnych szacunków w sieci znajduje się obecnie około 1,5 miliarda witryn internetowych, jednak spośród nich mniej niż 200 milionów jest aktywnych. W tym miejscu należy uściślić, że „witryna internetowa” jest tu utożsamiana z unikalną nazwą hosta (nazwa, którą można przekształcić za pomocą serwera nazw na adres IP).
Warto nadmienić, że obecnie około 75% witryn internetowych to m.in. nieaktywne, zaparkowane domeny. Granica jednego miliarda witryn została po raz pierwszy przekroczona we wrześniu 2014 roku. Liczba ta nie utrzymała się zbyt długo, powracając do poziomu poniżej 1 miliarda (ze względu na miesięczne wahania liczby nieaktywnych witryn internetowych). Tylko w 2013 roku sieć „urosła” o ponad jedną trzecią: z około 630 milionów stron internetowych na początku roku do ponad 850 milionów w grudniu 2013 roku (z czego 180 milionów było aktywnych). W sieci ponownie odnotowano ponad 1 miliard witryn w marcu 2016 roku. W roku tym łączna liczba witryn znacznie wzrosła, tj. z 900 mln w styczniu do 1,7 mld w grudniu. Jednocześnie jednak liczba witryn aktywnych utrzymywała się na stałym poziomie, tj. około 170 milionów przez cały rok [Internet Live Stats 2020].

Przytoczone tu liczby maja charakter statyczny, jednak samo zjawisko jest wybitnie dynamiczne. Nowe adresy internetowe pojawiają się w każdej sekundzie upływającego czasu. Ponadto odnotować można dużą amplitudę wahań.

Źródła

Bharat, K., Broder, A. (1998). A technique for measuring the relative size and overlap of public web search engines. In: Proceedings of the 7th international conference on world wide web, Vol. 30, pp. 379–388.
Cisco (2020). Cisco Annual Internet Report (2018–2023) White Paper. https://bit.ly/34XLoKR
Gulli, A., Signorini, A. (2005). The indexable web is more than 11.5 billion pages. In: WWW ’05: Special interest tracks and posters of the 14th international conference on world wide web (pp. 902–903). ACM Press, New York, NY.
Hilbert, M. (2012). How much information is there in the “information society”?. Significance, 9(4), 8-12. https://doi.org/10.1111/j.1740-9713.2012.00584.x
Hilbert, M., López, P. (2011). The world’s technological capacity to store, communicate, and compute information. science, 332(6025), 60-65. https://doi.org/10.1126/science.1200970
Internet Live Stats (2020). Total number of Websites. Internet Live Stats. https://www.internetlivestats.com/total-number-of-websites/#ref-1
Koehler, W. (2004). A longitudinal study of web pages continued: A report after 6 years. Information Research, 9(2). http://informationr.net/ir/9-2/paper174.html
Król, K. (2019). Geoinformation in the invisible resources of the internet. Geomatics, Landmanagement and Landscape (GLL), 3, 53-66. DOI: https://doi.org/10.15576/GLL/2019.3.53
Lawrence, S., Giles, C. L. (1998). Searching the world wide web. Science, 280(5360), 98–100. https://doi.org/10.1126/science.280.5360.98
Lawrence, S., Giles, C. L. (1999). Accessibility of information on the web. Nature, 400(107), 107–109.
Lem, S. (1999). Bomba megabitowa. Kraków: Wydawnictwo Literackie.
Payne, N., Thelwall, M. (2008). Longitudinal trends in academic web links. Journal of Information Science, 34(1), 3–14.
Van den Bosch, A., Bogers, T., De Kunder, M. (2016). Estimating search engine index size variability: a 9-year longitudinal study. Scientometrics, 107(2), 839-856.