Jak wejść na stronę, która już nie istnieje?

Wyobraź sobie sytuację, że kupujesz coś w sklepie internetowym. Ot, znalazłeś obudowę na telefon o której śniła po nocach Twoja młodsza siostrzyczka. Tylko że znalazłeś ją w małym, dość topornie wykonanym sklepie. Zapala się czerwona lampka. Ostatecznie chęć spełnienia marzenia młodej wygrywa i kupujesz obudowę.
Mija tydzień.
Mija drugi.
Myślisz sobie: no Święta, ludzie prezenty masowo kupują.
Zaczyna mijać trzeci, a na Poczcie Polskiej numer przesyłki który podajesz okazuje się być ciągiem znaków wygenerowanych przez kota wpuszczonego na klawiaturę. Takiego tresowanego, bo zgrabnie omijał znaki specjalne.
Irytujesz się. Wchodzisz na stronę sklepu. Wita Cię zimny, czarny napis: 404.
Nie pamiętasz nazwy, nie pamiętasz adresu sklepu, żadnych danych, które mogłyby pomóc rozwiązać tę sprawę.
Albo strona działa, ale Regulamin został nieco zmieniony.

Tutaj przychodzi z pomocą archiwizacja internetu.

Wayback Machine

Wayback Machine jest projektem mającym na celu zachowanie “dziedzictwa” Internetu.
To inicjatywa Internet Archive, organizacji non-profit (o której szerzej napiszę innym razem); cyfrowe archiwum, które przechowuje kopie stron internetowych.
W jaki sposób gromadzone są zrzuty stron?
Wayback Machine wpuszcza w Sieć tak zwane crawlery, czyli programy (boty) poruszające się po hiperlinkowej strukturze Internetu i zbierające w ten sposób strony do archiwizowania.
Aktualnie w bazie znajdziemy około 350 miliardów stron internetowych. W zależności od popularności strony Wayback Machine zaserwuje nam zrzuty z różnych okresów czasowych.

dukaj1.png
[przykład osi czasu zrzutów ze strony dukaj.pl]


Dukaj2.png
[i widok zarchiwizowanej przez Wayback strony]

Jak skorzystać z tego cudnego narzędzia?
Wpisujemy adres strony, wybieramy rok i szukamy niebieskich kropek na kalendrzu który się pokaże, licząc, że strona była zarchiwizowana w okresie który nas interesuje.
Niestety Wayback nie oferuje możliwości przeszukiwania archiwum po tekście który ukazał się na stronie, więc bez znajomości URLa nic nie zdziałamy.

Ja skorzystałam z archiwizacji chcąc dotrzeć do tekstów publicystycznych Jacka Dukaja na stronie pisarza po tym, jak uruchomiono nowy, bardzo ładny i nowoczesny, ale wyprany z zasobów layout.

Internet nie zapomina.

Wayback Machine można traktować jako ciekawostkę, ale też potężne narzędzie do wygrzebywania z Internetu wartościowych informacji.
Bo sieć kryje w sobie wiele zasobów, co będę udowadniać w kolejnych wpisach.

H2
H3
H4
3 columns
2 columns
1 column
Join the conversation now
Logo
Center