Načini pretraživanja
Pretraživači upotrebljavaju "robote" (spideri, crawleri) za pregledavanje Web-a i izgradnju baza podataka. Kad se upiše tražena riječ ona se uspoređuje sa bazom podataka, te se pripadni URL vraća kao "hit".
Dvije su primarne metode za pretraživanje teksta: Ključne riječi (Keyword) i Konceptno bazirane.
Keyword Searching
Ovo je uobičajena metoda za većinu pretraživača.
Ukoliko autor Web stranice ne napiše ključne riječi u tagovima dokumenta ( meta tags) robot ih mora sam tražiti u dokumentu. Tj. on izdvaja one riječi za misli da su važne. Veći prioritet daje onima koje se više pojavljuju. Tako neki izdvajaju svaku riječ iz dokumenta dok drugi gledaju samo dio. Npr. Lycos indeksira naslov, istaknute riječi, linkove prema drugim stranicama zajedno sa prvih 20 linija teksta i 100 riječi koje se najviše pojavljuju.
Infoseek gleda svaku riječ u tekstu, osim "a," "an," "the," "is," "and," "or," i sl. Tako radi i Hotbot dok AltaVista tvrdi da indeksira baš sve.
Uobičajeni problemi
Pošto postoje riječi različitog značenja koje se isto pišu npr. hard drive, roboti imaju velikih problema da odrede što se u stvari traži. Tako se dobivaju potpuno različiti hitovi od onog što je korisnik mislio. Sličan je problem i s riječima koje se mijenjaju (jednina, množina, komparacija pridjeva...) samo je tad pitanje da li gledati korijen riječi ili cijelu riječ.
Concept-based searching
Za razliku od prethodnog slučaja konceptualno pretraživanje pokušava odrediti što se misli da se traži, ne samo pregledavajući iste riječi. Rezultat su hitovi koji govore o temi koja je tražena iako možda dobivena stranica nema riječi koje je tražioc upisao.
To je poznato i kao "clustering" -- u prijevodu je to ispitivanje odnosa riječi koje su u blizini. Algoritmi za ovaj način su prilično komplicirani i koriste neke statističke metode određivanja o čemu se u stvari radi. Npr. ako tražimo riječ heart i uz nju još par riječi moguće je odrediti smisao -da se radi o srčanim problemima ili o ljubavi.
Na ovoj metodi zasad najviše radi Excite.
Refining Your Search
Refining se upotrebljava da bi se približili željenom pojmu upotrebom dodatnih opcija koje dodaju ili isključuju neželjene riječi. Najčešće se to radi upotrebom Boolean operatora:
-Boolean AND kaže da riječi povezane AND-om moraju obje biti u istom dokumentu.
-Boolean OR kaže da bar jedna mora biti u dokumentu.
-Boolean NOT isključuje pojavljivanje neželjene riječi-.
+ i - to su u stvari operatori slični Booleanovim AND i NOT.
-NEAR pretpostavlja blizinu riječi dok FOLLOWED BY ili ADJ traži da riječi slijede jedna iza druge-.
Phrases: traži se željena fraza.
Capitalization: razlikovanje malih i velikih slova što je vrlo bitno pri određivanju imena i prezimena, firmi i sl.
Koje su mogućnosti može se doznati klikom na točke dolje:
Infoseek Search Tips AltaVista Simple Search Help AltaVista Advanced Search Help Excite's Files on Search Refining
Ovaj pojam označava vrijednost hitova koje vraća pretraživač.
Npr. kod pretraživanja ključnih riječi obično se prvo izlista URL one stranice koja sadrži više tih riječi. No, na taj ispis utječe i mjesto riječi u tekstu -poželjnije je da je pri vrhu dokumenta ili pak posjećenost same stranice i količina lnkova prema stranici.
Yahoo ne radi tako, već kad pronađe riječ u bazi podataka odmah izlista njen URL iako se ona možda tamo pojavljuje samo jednom.
Pokazalo se da su prvih 20-ak hitova ili 2 ekrana ključni jer korisnik poslije toga obično odustane od pregledavanja ostalih hitova.
Stvar je u tome da autor stranice odmah u početku stranice izdvoji ključne riječi koje se pojavljuju dalje u dokumentu. Ovo je vrlo važno za prilagodbu onome što u stvari roboti traže. Slijedi primjer taga za neku prodajnu firmu informatičke opreme:
<META
content=" hardware, software, cjenik, komponente,
konfiguracije, monitori, mpc, i sl."
name=KeyWords>
<META
Odamh se može zaključiti da je ovo moguće zloubotrebiti nagomilavanjem ključnih riječi koje se u stvari ne pojavljuju u tekstu stranice. Takve stvari roboti uglavnom uočavaju ali ponekad i ne.
Imena ili proizvode pojedinih svjetskih firmi nije uputno stavljati u svoje tagove jer može doći do tužbi zbog zloupotrebe autorskih prava.
Na kraju je najbitnije da se prouči kakve tagove traži koji pretraživač i pilagodi se istom.