Hvordan søke på Internett?
Magnus Nohr
Høgskolen i Østfold
Innholdsfortegnelse
Neste skritt med Booleske uttrykk
Velkommen
Søkeguiden er et raskt kurs i hvordan du finner
det du leter etter på Internett. Emnene strekker seg fra det elementære til det
avanserte, og forutsetter ingen forkunskaper. Etter kurset vil du forhåpentlig
forstå hvordan kataloger og søkemaskiner på nettet virker, og hvordan du bruker
dem.
Du kan følge Søkeguiden fra start til slutt ved å
følge linken nederst på siden, eller velge fra innholdslisten over.
I
SOL Kvasir vil du finne det du leter etter
enten det er i Norge, Skandinavia eller resten av verden.
På nett http://www.sol.no/cgi-bin/publish/view.cgi?kunde=kvguider&cat=Soekeguide
Det finnes ulike typer resurser
du kan søke etter på nettet:
Nett-sider
Nett-sider, eller web-sider, er en bred kategori av tekst og bilder, som i tillegg
kan inneholde lyd, multimedia, eller interaktive elementer og applikasjoner.
Felles for dem er at de i en eller annen form er publisert på servere
tilknyttet Internett.
Andres meninger
Nyhetsgrupper er en type diskusjonsforum, som kjøres på et eget system av
nyhetsservere. Det finnes tusenvis av nyhetsgrupper spredt på mange land.
Nyhetsgrupper er en av de viktigste kildene til
informasjon om hva andre på nettet mener om ulike emner. Spesielt er
nyhetsgruppene ofte mye raskere oppdatert enn typiske nett-sider. Innleggene er
ofte viktige pekere til andre informasjons-kilder på nettet.
Dersom du f.eks har tekniske problemer kan du
være ganske sikker på at noen andre har hatt de samme problemene før, og at
emnet har vært diskutert på nyhetsgruppene. Du finner m.a.o ikke en bedre kilde
for spørsmål og svar.
Filer og programmer
På Internett finner du billig eller gratis programvare til nytte og
underholdning. Det viktigste er kanskje programvare du må ha for at ulike deler av datamaskinen din, slik som skjermkort,
lydkort, og harddisker, skal fungere. Denne programvaren kalles drivere, og har i det siste også fått
følge av patcher, som er
oppdateringer som retter feil i programmer du har kjøpt.
Filer og programmer finner du ofte via
nett-sider, men det eksisterer også et eget system med servere dedikert til å
lagre filer, som kalles File Transfer Protocol (FTP) servere.
Nyheter
Nyheter strømmer ut på nettet hvert sekund. Med en egen type søkeverktøy, kalt nyhetsagenter, får du en bedre oversikt
over nyhetsstrømmen. PÅ SOL søkesenter
finner du en nyhetsagent hvor du kan søke på emneord.
Når du leter etter noe på nettet er det viktig å forstå de to
hovedmetodene som brukes for å gjøre deg i stand til å finne det du leter
etter.
De to metodene er katalogisering og indeksering.
Selv om begge metodene kartlegger de samme delene av Internettet er logikken
bak dem ganske forskjellige.
Som regel vil det være slik at du søker i en
indeks, dersom du ikke finner det du leter etter i en katalog.
På de neste to sidene vil jeg si litt om hvordan
kataloger og indekser blir bygget opp, slik at du skal forstå bedre hva du kan
vente å finne i dem.
Kataloger
Katalogisering er kjennetegnet ved at mennesker
står bak ordningen av data. Internett-kataloger bygges opp ved at mennesker,
ofte bibliotekarer, har lest gjennom en nettside og bestemt at innholdet kan
klassifiseres under en spesiell kategori.
Underkataloger
Emnet "Titanic" kan f.eks plasseres
enten i kategoien
Underholdning/Film/Titler/Titanic
eller under kategorien
Vitenskap/Historie/Skipsfart/Titanic
alt ettersom hva mennesket som har lest siden
synes passer best. Det ligger med andre ord en menneskelig vurdering bak
struktureringen av data. Katalogisering har både fordeler og ulemper:
Fordeler
En del av søkearbeidet er gjort for deg av menneskene som står bak katalogen.
Du kan dermed ofte følge en enkel tre-struktur til det du søker.
Ulemper
Katalogisering er ressurskrevende, og derfor er kun en liten brøkdel av
Internett-sider katalogisert, selv i de største nett-katalogene. Av samme årsak
er ofte kataloger fulle av pekere til nettsider som er fjernet fra nettet, som
har skiftet adresser, eller som har fått nytt oppdatert innhold. Dernest er du
utlevert katalogisererens vurderingsevne, spesielt på nettsider med sammensatte
emner.
Indeksering av Internettet foretas av en rekke
automatiserte søkemaskiner, ofte kalt søke-roboter eller bots. Sterkt forenklet er dette dumme dyr som leser seg gjennom
side etter side på nettet og merker seg ord, som de så husker hvor de leste. Du
kan så søke i listen over ord, og dermed finne veien til nett-sidene hvor
søke-maskinen fant ordene. Det er både fordeler og ulemper med søke-maskiner:
Fordeler
Søkemaskiner kan raskt lese seg gjennom millioner av nettsider hver dag, og vil
dermed kunne dekke en større andel av alle sidene på nettet. Maskinen husker
alt den har lest. Gitt at du klarer å formulere et godt søk, vil du kunne finne
alle sider som inneholder f.eks et spesielt ord.
Det finnes i dag søkemaskiner som søker i andre
søkemaskiner, såkalte multisøkerer eller metasøkere. Disse er ganske nær ved å
kunne søke i hele "det kjente" Internett på en gang.
Ulemper
Søkemaskiner leser millioner av sider, men de forstår dem ikke. De klarer
dermed ikke å sortere sidene etter innhold, men kun etter hvilke ord som finnes
på sidene. Søker du etter ordet "Titanic" vil du få opp tusenvis av
treff, både under emnene film og under emnet historie.
For å kunne bruke søkemotorer er du avhengig av å
tilegne deg visse kunnskaper før du får utnyttet maskinene effektivt.
Både og er bedre enn enten eller
Som du ser utfyller kataloger og indekser hverandre. Ofte vil det være naturlig
å starte søket i en av katalogene, og deretter fortsette søket i en eller flere
søkemaskiner. Flere av de større nett-katalogene, slik som Kvasir og Yahoo gjør
dette automatisk. Dersom du ikke finner noe i katalogen, sendes søket
automatisk videre til en søkemaskin.
Emnet "Titanic" er et godt eksempel for
å illustrere søk på Internett. Emnet er bredt, og kan klart skilles inn i emnet
før og etter lanseringen av den fremgangsrike storfilmen med samme navn. La oss
anta at du er interessert i finne ut mer om både filmen og emnet.
Du har kanskje hørt at filmen er verdens dyreste,
og at den er regissert av James Cameron. Du regner med at emnet er bredt nok
til at det er dekket både i Norge og utlandet.
På de neste sidene vil jeg gå skritt for skritt gjennom ulike
metoder for å finne ut mer om emnet Titanic. Metodene strekker seg fra det, for
mange, banalt enkle, til det mer avanserte. Husk at du kan gå rett til de ulike
avsnittene med menyen nederst på siden.
Viktig tips
På de neste sidene vil du se eksempler på praktisk bruk av noen søke-verktøy. I
teksten vil du finne en link til dem. Når du trykker på linken vil det åpne seg
et nytt vindu, hvor den aktuelle søkemaskinen dukker opp. Du kan skifte mellom
dette nye vinduet, og vinduet med Søkeguide-teksten ved å trykke på vinduene
med mus-markøren, trukke Alt-TAB på
tastaturet, eller trykke med mus-markøren på Win95s oppgavelinje (taskbar).
Hva du søker etter bestemmer til en viss grad
hvilke metoder som er raskest og best for å finne det du leter etter.
Smale emner
For smale og uvanlige emner vil du ofte være ute etter å finne all mulig
informasjon om emnet. Dette er den enkleste form for informasjonsjakt. Alt du
trenger å gjøre er å jakte på ett ord eller ett begrep. Du begrenses dermed kun
av hvilke søkeverktøy du har tilgjengelig, og hvor stor del av Internett de
dekker.
Brede emner
Faktisk kan det være vanskeligere å finne spesifikk informasjon om et bredt
emne, enn det er å finne generell informasjon om et smalt emne. Dersom du søker
generelt på et bredt emne vil du ofte finne tusenvis av artikler, som dekker
alle sider ved emnet.
Artikler og filer du finner som resultat av et
søk kalles treff, og resultatet
presenteres som regel i en treff-liste.
Dine evner til å søke bestemmer størrelsen og
kvaliteten på trefflisten. Jo flere av de følgende lete og søkemetodene du
behersker dess flere nyttige artikler vil du finne, og jo mindre tid vil du
bruke på å vasse gjennom artikler som ikke er relevante.
Før man starter kan det være nyttig å ta et skudd i blinde,
spesielt om emnet er kjent, eller når det dreier seg et selskap eller en
organisasjon. Det går kort og godt ut på å skrive emnet i nettleserens URL-felt
(feltet der du skriver Internett-adressen), etterfulgt av de vanligste
navn-endelsene, slik som .com, .org og .net.
Feks så leder www.titanic.com til en side med direkte link
videre til filmens hjemmeside. Likeledes leder www.selskapsnavn.com eller
www.norskselskapsnavn.no nesten alltid til selskapets hjemmesider på nettet. Du
kan ha flaks med denne metoden, så hvorfor ikke prøve?
Ofte kan det være greit å starte lokalt, og deretter tenke globalt.
Den norske nettkatalogen Kvasir er den
største av sitt slag i Skandinavia.
Skriver du Titanic her får du kun opp en
oppføringer under kategorien:
Hobby/Båt
I tillegg sendes søket videre til Kvasirs
søkemotor, som resulterer i 363 robot-indekserte dokumenter. I tillegg viser
også Kvasir-siden at søket ga 147 treff i Sol
Referanse, som er en betaltjeneste som søker i i Norske tekst-og bildearkiv
(Aftenposten, SCAN-FOTO, NTB og Hvem Hva Hvor).
Fra katalog til indeks automatisk
Katalogen ga ikke nok svar, da blir det naturlig å konsentrere seg om Kvasirs
robot-søk.
Men 363 dokumenter er for mange treff til at de
har noen verdi. Det er nemlig fult mulig at artikkelen du er mest interessert i
er artikkel nummer 362. Du må med andre ord spesifisere søket ditt nærmere. En
nyttig huskeregel er å sjekke søke-maskinenes hjelpesider før du starter søket.
Kvasirs robot-søk har enkle, men begrensede
muligheter for å spesifisere søket. Du kan velge mellom å finne alle
søke-ordene du skriver inn, noen av søkeordene, eller den eksakte frasen du
leter etter. Dette er vanlig for de fleste søkemaskiner, så forstår du dette er
du kommet et langt skritt på vei:
Du kan fortelle Kvasir hvordan søkefunksjonen
skal behandle ordene du taster inn i søkevinduet. På den måten kan du begrense
antallet artikler i trefflisten, som ikke er relevante. Det finnes tre ulike
søkefunksjoner, som også er vanlige på andre søkeverktøy:
Finn alle disse ordene
Du taster inn flere ord. Treffene du får må inneholde alle ordene du taster
inn. Eksempel: Søk på "Titanic verdens dyreste" vil gi treff på alle
dokumenter som inneholder ordene "Titanic" og "verdens" og
"dyreste." (Ordet "og" i dette søkeuttrykket regnes ikke
med, da dette er et såkalt stoppord.)
Finn disse ordene
Du taster inn ett eller flere ord. Treffene du får inneholder ett eller flere
av disse ordene. Ikke nødvendigvis alle. Eksempel: Søk på "Titanic verdens
dyreste" vil gi treff på alle dokumenter som inneholder ordene
"Titanic" eller "verdens" eller "dyreste." (Ordet
"og" i dette søkeuttrykket regnes ikke med, da dette er et såkalt
stoppord.)
Finn denne frasen
Du taster inn en sammenhengende setning eller ord som skal høre sammen.
Treffene du får inneholder alle ordene, i samme rekkefølge som du tastet dem
inn. Eksempel: Søk på "Titanic verdens dyreste" vil gi treff på alle
dokumenter som inneholder setningen "Titanic verdens dyreste"
Nært, norsk, nyttig?
Ved å bruke lokale søkeverktøy, som Kvasir finner du mange norske artikler.
Dette kan ha egenverdi for mange, ettersom de vurderer emnet fra et norsk
standpunkt. Ofte kan sidene også være raske å laste ned.
Men du skal ikke ha mye fantasi for å gjette at
det er skrevet langt mer enn noen hundre artikler om emnet "Titanic"
på nettet. Da er det på tide å pakke kofferten.
Når emnet er internasjonalt vil du begrense deg
sterkt med kun å søke regionalt. Dersom du har vært i utlandet har du sikkert
lagt merke til at bokhandler, museum, butikker og universiteter er større enn i
Norge. Det samme gjelder informasjonsmengden på nettet.
Engelsk er verdensspråket på nettet, om en liker
det eller ikke. Derfor vil jeg vende oppmerksomheten mot de engelskspråklige
søkemaskinene og katalogene.
Internasjonale
kataloger
Yahoo er den
største Internett-katalogen på nettet. Ordet "Titanic" gir der 6
kategorier, blant dem spill, historie, teater og musicals, samt film som
resultat. Under disse kategoriene ble det funnet 157 oppføringer i katalogen.
Følger du film-linken resulterer det i 30 oppføringer under denne. Disse kan
være et greit utgangspunkt for informasjonsjakten.
Men for virkelig å ta for deg av
informasjonsmengden på nettet slipper du ikke unna mer avanserte søk. Kataloger
dekker nemlig kun en liten brøkdel av alle artiklene på nettet.
Det ikke tvil om at det eksisterer mye mer
informasjon enn det Yahoo fant i forrige avsnitt om verdens mest omfattende
film-produksjon. Da er det bare å finne frem forstørrelsesglasset, sette på seg
hjelmen og kaste seg ut i en søkemaskin med avanserte søk.
Universelle prinsipper for søk
Prinsippene for avanserte søk stammer fra database-utvikling. Mestrer du først
de enkle måtene å formulere et søk på kan du bruke samme metode på de fleste
større søkemaskinene.
Som et eksempel vil jeg ta for meg søk i
søkemaskinen HotBot,
som drives av tidsskriftet Wired. Årsaken til at jeg velger denne er at den
støtter de fleste avanserte typer søke-uttrykk i samme søkefelt. Samme selskap
som har utviklet HotBot utvikler for tiden en ny omfattende søkemotor for
Microsofts nye nettsted. Denne vil støtte de samme søkeuttrykk.
HotBot og de
fleste andre søkemotorer støtter bruken av tegnene "+" "-"
og "" (gåsetegn) for å stille krav til treffene du får.
Dersom du setter et plusstegn (f.eks +Titanic)
foran et ord betyr det at ordet må forekomme i alle artiklene i trefflisten.
Dersom du setter ett minustegn (f.eks -Titanic)
foran et ord betyr det at ordet ikke må forkomme i noen av artiklene i
trefflisten.
Dersom du setter gåsetegn (f.eks "Leonardo
DiCaprio") rundt flere ord betyr det at ordene må stå i artikkelen som en
frase, nøyaktig slik de står inne i gåsetegnene. Dersom du dropper gåsetegn vil
New times in York og in New York Times gi nesten like treff.
Kombinasjoner
Når du kombinerer bruken av disse tegnene får du muligheten til å spesifisere
søket ditt ganske nøye. Dersom du f.eks er ute etter at artikkelen du finner
handler om den nye Titanic-filmen kan du skrive følgende i søkevinduet:
Pluss
+Titanic +Cameron
Da vil alle artiklene i trefflisten inneholde
Titanic og navnet på filmens regissør, James Cameron.
Minus
Dersom du er lei av alle artiklene som handler om at filmen er verdens dyreste
kan du skrive følgende i søkevinduet:
+Titanic +Cameron -expensive
Gåsetegn
Dersom du vil at artikkelen handler om den nye filmen, og en av de andre
Titanic-filmene kan du skrive følgende i søkevinduet:
+Titanic
+Cameron +"Raise the Titanic" -book
Dette sikrer at artikkelen omtaler skipet,
regissøren av den nye filmen (James Cameron), tittelen på en annen Titanic-film
(Raise the Titanic), samt at den ikke
inneholder ordet book for å hindre å
få med mange av bokomtalene av Raise the
Titanic.
Ekskludering er nyttig
Som du ser vil du med ganske enkel bruk av pluss, minus og gåsetegn kunne
begrense antallet treff du får, og spesifisere kravene til hva artikkelen du
leter etter skal inneholde, og ikke minst hva den ikke skal inneholde.
Ofte er det smart å starte med søk etter et ord
eller en frase, deretter se på hva som går igjen i trefflisten som du ikke er
interessert i, og så søke på nytt med minustegn foran ord du ikke er
interessert i. Søkemaskinen AltaVista støtter
også bruk av kombinasjoner av pluss, minus, og gåsetegn.
Ikke lenge etter at du behersker bruken av pluss, minus, og
gåsetegn vil du snart ønske å kunne spesifisere søket enda nærmere. De
enkle ordene "AND", "OR", "NOT", samt vanlige
parenteser er en standardmetode for å søke i databaser og søkemotorer.
Boolske uttrykk
På fagspråket kalles disse for Booleske uttrykk, etter matematikkeren
George Boole. Når du bruker slike må HotBot vite om
det, noe du sørger for ved å velge Boolesk
uttrykk fra rullegardin-menyen ved søkevinduet.
Hver for seg er Booleske uttrykk enkle, men ikke
så kraftige. Noen eksempler du kan skrive i søkevinduet:
Titanic AND Cameron
Stiller krav til at både ordet Titanic og ordet
Cameron finnes i alle artiklene i trefflisten.
Titanic OR Cameron
Stiller krav til at minst ett av ordene finnes i
artiklene som blir funnet. Da vil du i trefflisten få opp artikler som kun
handler om Titanic, og andre som kun handler om regissøren Cameron, samt artikler
som handler om begge deler.
Titanic NOT Cameron
Ordet NOT har egenskapen at artiklene i
trefflisten skal inneholde ordet som står før NOT, men ikke ordet som står
etter NOT. Eksemplet gir artikler om Titanic hvor regissøren Cameron ikke er
nevnt.
Lett?
Så langt er Booleske uttrykk lette, men ikke særlig kraftige. I neste avsnitt
kombinerer vi dem. Bla videre om du tør:
Nå nærmer vi oss punktet hvor ting begynner å
kreve at du konsentrer deg. Dersom du synes det under virker tung bør du ta en titt på Avansert søk skritt for
skritt. Kun feiginger gir opp her fordi siden minner litt om matte-boka du hatet i 9. klasse.
Kombinasjoner gir styrke
Så langt er det lett, men ikke så mye mer nyttig enn pluss, minus og gåsetegn.
For å kunne søke med virkelig kraft må du kombinere AND, OR, NOT med
paranteser:
(Titanic
AND Cameron) NOT expensive
Dette uttrykket stiller som krav at ordene
Titanic og Cameron forekommer i alle artiklene du finner, men at ordet
expensive ikke får finnes i noen av dem. Dette søkeuttrykket kan være nyttig
dersom du er på jakt etter artikler om den nye filmen, som ikke tar opp hvor
dyr den var å lage.
Krav
og delkrav
(
(Titanic AND Cameron) NOT expensive) AND
(review OR picture)
Dette er et eksempel på et avansert søke-uttrykk.
Som du ser består det av to hovedkrav til artiklene i trefflisten:
Delkrav
= (Titanic AND Cameron)
Hovedkrav 1 = ( Delkrav NOT expensive)
Dette betyr at:
Hovedkrav
1 = ( (Titanic AND Cameron) NOT expensive)
Hovedkrav
2 = (review OR picture)
Søkeuttrykket består med andre ord av:
Hovedkrav 1 AND Hovedkrav 2
Resultatet av søket blir artikler som skal
inneholde ordene Titanic og Cameron, men ikke ordet expensive. De skal også
inneholde ordet for filmanmeldelse (review) eller bilde (picture). Som du ser
vil du etterhvert som du blir vant til å bruke AND, OR, NOT kunne stille en
lang rekke hovedkrav og delkrav til artiklene du leter etter.
Dersom du syntes det ble for mye på en gang
prøver vi en gang til skritt for skritt:
Ikke forsøk å pugg avanserte søke-uttrykk, men
forsøk heller å konsentrer deg om å forstå de ulike delkravene, og hvordan de
avgrenser noen artikler fra hele haugen av alle artikler på nettet. Ta for deg
en parentes om gangen når du "bygger" søke-uttrykket i flere trinn:
Trinn 1:
(Titanic AND Cameron)
Trinn 2:
(Titanic AND Cameron) NOT expensive
Trinn 3:
((Titanic AND Cameron) NOT expensive) AND
(review)
Trinn 4:
( (Titanic AND Cameron) NOT expensive) AND
(review OR picture)
Forsøk så selv å se hvordan du kan utvide med
f.eks flere OR, eller flere NOT
Etter dette lille kurset bør du ha fått en innsikt i noen av
prinsippene for å søke på nettet. Det betyr ikke at du behersker alle
søkeverktøy på nettet. Noen bruker forskjellige søkeord og tegn, men så lenge
du fokuserer på prinsippene spiller det liten rolle om en søkemaskin bruker AND
og en annen søkemaskin bruker &-tegnet i stedet.
Hovedprinsippet, om stadig å spesifisere nærmere og mer
nøyaktig hva du er ute etter for å redusere antallet treff du får opp i
begynnelsen, forblir det samme.
Velg
utstyr etter forholdene
Som du har sett over vil veien til informasjonen du søker variere. Korteste vei
kan være å slenge .com etter emneordet. Normalveien kan være en
katalog-oppføring i Kvasir eller Yahoo, eller du kan gå direkte gjennom de
internasjonale søkeverktøyene.
Her finner du kvasir familiefilter: http://admin.kvasir.sol.no/pub/filter/
Hva er Familiefilter?
Familiefilter er en metode for å redusere antall uønskede websider i søkeresultatet når du søker globalt. Sider som inneholder informasjon om narkotika/alkohol/tobakk, pengespill, hatsider, sex/porno og vold vil bli fjernet.
Ved søk i Norge har vi allerede satt opp en stoppordliste som fjerner de fleste uønskede sider, foruten at vi har redigert katalogen manuelt.
OBS!
Nettleseren din må støtte cookies og denne må være slått på for at
Familiefilter skal virke. Vær også oppmerksom på at uønskede sider i visse
tilfelle kan fremstå i søkeresultatet til tross for at Familiefilter er slått
på.
·
Kvasir
·
Cyber 411 - Fifteen Search Engines, One Query
·
Excite
·
HotBot
·
OneLook
·
Infoseek
·
Lycos
·
Yahoo!