Internet zawiera niewyobrażalną liczbę informacji. W jaki więc sposób wyszukiwarki znajdują w nim akurat to, czego chcemy?
Wyszukiwarki można porównać do czytelnika, który w bibliotece poszukuje książki na interesujący temat. Od tego, w jaki sposób szuka, zależy czy i jak szybko znajdzie – może chodzić wzdłuż półek, wyjmować na chybił trafił, czy skorzystać z katalogu. Podobnie jest z wyszukiwarkami – w zależności od tego, jak przeszukują strony internetowe, dostarczają nam różnych wyników.
Słowo klucz
Wszystkie mechanizmy wyszukiwania opierają się na słowach kluczach. Jeśli szukamy informacji o prezydencie Francji, wyszukiwarka przeszukuje internet pod kątem dwóch słów – prezydent i Francja. Problemem jednak nie jest znalezienie jakichkolwiek stron, ale takich, które zawierają informacje, których szuka użytkownik. Jeśli szuka danych o polityce Nicolasa Sarkozy’ego, to artykuł o jego ślubie z Carlą Bruni na niewiele mu się przyda. Dlatego stworzono różne mechanizmy wyszukiwania, które w odpowiedni sposób przeszukują strony internetowe pod kątem zawieranych przez nie informacji.
Pierwotnie strony grupowano w katalogi – tak jak w bibliotece. Grupy ochotników przypisywały strony do odpowiednich kategorii, np. polityka czy chemia. Do dziś jest to najskuteczniejszy sposób katalogowania treści, ponieważ żaden program, w przeciwieństwie do człowieka, nie jest w stanie w sposób bezbłędny ocenić, czy dana strona zawiera ciekawe materiały, czy nie. Największym katalogiem jest DMoz – zawiera on 5 mln stron, a obsługiwany jest przez blisko 15 tys. ochotników. Każdy z nich musi być specjalistą w danej dziedzinie, więc strona umieszczona w kategorii militaria na pewno będzie zawierała interesujące nas informacje.
Człowiek nie da rady
Jednak skatalogowanie wszystkich informacji z internetu przez człowieka jest niemożliwe, bo jest ich po prostu za dużo. Dlatego powstały specjalne programy, które automatycznie katalogują strony. Początkowo przeszukiwano stronę pod kątem ilości słów kluczy – po wpisaniu do wyszukiwarki słów „Francja” i „prezydent” program prezentował najpierw te strony, na których te słowa powtarzały się najczęściej. Problem polegał na tym, że szybko pojawiły się strony, które zawierały dużo słów kluczy, ale nie były związane z wyszukiwaną treścią – najczęściej były to strony pornograficzne, które w ten sposób przyciągały nieświadomych użytkowników.
To dla nas sygnał, że cenisz rzetelne dziennikarstwo jakościowe. Czytaj, oglądaj i słuchaj nas bez ograniczeń.
Karol Kloc, dziennikarz naukowy