Paieškos sistemų darbo principai

interneto svetainiu optimizavimas seo svetainiu kurimasPaieškos sistemos kūrimas susiduria su daugeliu sunkumų. Greita interneto svetainių peržiūrėjimo technologija reikalinga puslapiams surinkti ir naujausiai informacijai saugoti. Saugojimo erdvė turi būti išnaudojama efektyviai. Indeksavimo sistema turi apdoroti šimtus gigabaitų informacijos. Užklausos turi būti vykdomos greitai, per šimtąsias ar tūkstantąsias sekundės dalis. Paieškos sistemos susideda iš penkių atskirų komponentų

  • Spider („voras“): programa, kuri skaito tinklapius.
  • Crawler („keliautojas“): voras, kuris automatiškai keliauja pagal tinklapio nuorodas.
  • Indexer (”indeksatorius“): programa, kuri analizuoja gautus iš voro tinklapius.
  • Database (”duomenų bazė“): čia saugojami voro perskaityti tinklapiai.
  • Results engine (”rezultatų pateikimo sistema“): paima rezultatus iš DB ir pateikia juos vartotojui.

Spider
Programa, kuri skaito interneto svetaines. Jis dirba tokiu pat pagrindu kaip paprasta naršyklė, kai vartotojas jungiasi prie interneto svetainės. Voras neturi jokių vizualinių komponentų. Ta patį veiksmą (skaitymą) galima stebėti, kai su naršykle peržiūrimas interneto svetainės kodas („View source“). Tinklo „voro" paleidimas – sudėtinga užduotis. Yra keblių patikimumo ir produktyvaus darbo problemų ir – dar svarbiau – yra socialinių problemų. Ieškojimas ir skaitymas yra pati trapiausia programa, kadangi ji interaktyviai bendrauja su šimtais tūkstančių interneto serverių. Voras turi būti patikimas, greitas ir robustiškas. Interneto svetainių optimizavimas padeda "vorui" nuskaityti jūsų svetainės informacją.

Crawler
Jo tikslas – nustatyti, kur toliau turi keliauti voras, remdamasis nuorodomis arba iš anksto paruoštu adresų sąrašu. Dažnai reikia uždrausti botui pasiekti konkrečias tinklapio dalis. Tam tikslui skirtas neoficialus standartas „Standart for Robot Exclusion (SRE)“, kurio remiasi beveik visi paieškos sistemų kūrėjai. Pagal šį standartą reikia tik sukurti failą “robots.txt“ serverio šakniniame kataloge ir įrašyti į jį keletą apribojimo komandų. Pagal serverio log-failą galima stebėti, kokias interneto svetainės dalis lanko botas. Kai kurie botai identifikuojami pagal savo pavadinimą – pvz., Google „Googlebot“. Kiti labiau paslėpti ir maskuojami kaip naršyklės.

Indexer
Indeksatorius dalina puslapį į skirtingas dalis (pavadinimai, nuorodos, tekstas, struktūriniai elementai, stiliaus elementai ir t.t) ir analizuoja juos. Botai nesupranta freimų, flash-animacijos ir skriptų. Interneto svetainių optimizavimas padeda geriau suprasti dalis, suteikia daugiau informacijos.

DB
Tai interneto tinklapių, kuriuos paieškos sistema indeksuoja, saugykla. Jeigu interneto tinklapis pateko į DB, tai botai periodiškai lankys jį ir stebės visus pakeitimus. Apsilankymų kiekis priklauso nuo konkrečios paieškos sistemos.

Search Engine Results Engine
Rezultatų pateikimo sistema paima rezultatus (SERP, search engine result pages) iš DB ir pateikia juos vartotojui