|
CARATTERISTICHE DEI MOTORI DI RICERCA E TECNICHE DI RICERCA
Il problema più complesso da risolvere quando si usa un motore di ricerca è quello della mole di
risultati che si ottengono e della rilevanza da assegnare loro.
L'efficacia di un motore è, infatti, determinata principalmente dalla sua capacità di elencare in
modo ponderale le risposte alla nostra interrogazione.
Non solo, ma anche quella di interpretare la nostra interrogazione, aspetto questo estremamante
difficoltoso, dal momento che si tratta di un meccanismo automatico e non di una persona
intelligente.
Quando sottomettiamo una parola chiave ad un motore di ricerca, il povero 'server della gleba'
incaricato spulcia ogni rifermento possibile nel database ed estrae tutte le ricorrenze che
ci possono soddifare, quindi le ordina secondo un criterio che dipende dall'algoritmo di rilevanza
che caratterizza il motore scelto.
I motori principali hanno dei criteri che li diversificano e che sarebbe molto opportuno conoscere
per poterli sfruttare al meglio ,magari utilizzandoli in modo diversificato per soluzioni diverse.
Così come sarebbe necessario spesso utilizzare i metodi di ricerca avanzati, in alternativa alla
solita e semplice compilazione di una serie di parole.
Quello che ci proponiamo con questo articolo, è una'esplorazione un poco più puntuale delle forme
di utilizzo dei motori e di alcuni metamotori che riteniamo più precisi e utili.
Per tutti i motori la logica di rilevanza è ancora quella della frequenza di termini nei metatag
combinate con quelli che si trovano all'interno della pagina.
con il termine metatag si definisce una serie di descrittori della pagina web che vanno dal titolo,
alla descrizione (che resterà nascosta al browser), alle keyword ed a vari altri campi come autore
e lingua.
GOOGLE.
CRITERI DI RILEVANZA.
Senz'altro è quello che anche chi legge utilizza più spesso. In effetti, è l'URl più sottomesso e
da solo copre il 90% delle richieste fatte a tutti i motori.
La sua risoluzione della rilevanza dei risultati si basa su un algoritmo con un centinaio di
parametri.
Le linee guida, comunque, sono ben precise: viene data maggiore rilevanza alle pagine con più alta
LINK POPULARITY, a quelle con una frequenza accettabile di parole ricercate e una certa densità
delle stesse.
Il primo concetto significa che più relazioni esterne a quella pagina definiscono la sua
certificazione come significativa.
Il secondo concetto determina che se molte parole ricorrono all'interno della pagina allora
l'argomento di quella pagina è quello cercato.
Il terzo dice che le parole cercate che sono vicine sono effettivamente più significative di altre
che ricorrono nella pagina ma sono lontane tra loro.
Criteri di ricerca avanzata.
Stringhe e parole:
questi criteri permettono di ridurre notevolmente il numero di risultati e di averli più precisi
nei confronti delle effettive aspettative
se si vogliono cercare due o più parole che ricorrano insieme
ad esempio: software e localizzazione
software+localizzazione
una maggiore precisione e sfoltimento si ottiene citando la frase da cercare
"localizzazione software"
queste ricerche sono di tipo AND nella logica booleana, perchè si vuole ottenere la ricorrenza di
tutte le parole richieste.
Vi sono altri due criteri booleiani che possono essere utili:
- cercare una parola e un'altra alternativa (OR), per cui si cercano tutte le pagine che abbiano
il temine 'software' oppure il termine 'localizzazione'. In questo caso, si otterrà una somma dei
due criteri e quindi un maggior numero di risultati.
localizzazione OR software
- cercare pagine che non abbiano un termine, ovviamente se la ricerca venisse fatta per soddisfare
questo solo criterio otterremmo una lista talmente ridondante da risultare inutile.
Tale criterio,invece, diventa molto efficace se abbinato ad uno dei due altri criteri precedenti.
ad esempio, si potrebbe voler cercare pagine che contengano la frase "localizzazione software" ma
non la parola "Microsoft".
la ricerca sarà: http://www.google.com/search?as_q= "localizzazione software" - Microsoft
note:
Parole comuni come articoli e preposizioni non sono presi in considerazione nella ricerca:
se si vuole al contrario che rqppresentino il criterio di ricerca si deve mettere il simbolo
'+'.Esempio 'localizzazione+del+software'
Altri criteri che riducono l'insieme dei risultati sono:
Cercare documenti limitati ad una sola Lingua di redazione. Questo è un criterio rischioso, in
quanto non tutti i documenti riportano nei metatag la lingua di stesura. In ogni caso, chi lo
riportasse darebbe un peso ben determinato a questa proprietà e senz'altro sarebbe un criterio di
qualità.
l'indirizzo sarà:
http://www.google.com/search?as_q=localizzazione+software&lr=lang_it per cercare solo le pagine in
italiano
Cercare documenti in un certo formato file oppure escluderne uno dalla ricerca.
Utilizzare questo criterio non porta a nessun valore di ricerca di dati, ma può escludere i
documenti in formati che non possiamo acquisire o non intendiamo acquisire.
cercare i documenti con range di data.
Questo criterio permette di determinare a priori se la nostra ricerca ha delle scadenze o è
preferibile avere soltanto documenti recenti oppure no.
Con GOOGLE il criterio si limita a tre metagruppi (tutti, ultimi 3 mesi, ultimi 6 mesi, ultimo
anno).
per ecludere i pdf la frase da sottomettere sarà:
localizzazione software -filetype:pdf
cercare i termini localizzati in domini definiti (o in eclusione).
Se si volesse cercare nel mio sito pagine dedicate alla localizzazione software la frase sarebbe:
localizzazione software site:antotranslation.com
Con questo criterio, si cerca all'interno di un dominio o ragguppamenti di domini.
Ad esempio, tutti i domini della gerarchia italia (.it)
cercare i termini localizzati in parti precise del testo (o in eclusione).
Se volessimo dare importanza solo a quei documenti che abbiano il termine ricercato nel titolo, nel
testo, nell'indirizzo URL o nei link interni.
Quello del titolo può essere un criterio significativo, in quanto se un termine è presente nel
titolo è senz'altro più rilevante di un altro che sia presente solo nel testo, poichè probabilmente
è il titolo a dare la maggior definizione del contenuto documentale.
Da rilevare che per titolo il motore definisce i tag htm 'H' e le frasi con un corpo grafico oltre
lo standard.
per cercare la frase nel titolo
allintitle: localizzazione software
per cercare la frase nel corpo
allintext: localizzazione software
Anche la presenza del termine nel nome del dominio identifica con maggiore puntualità la rilevanza
di un argomento.
Se una pagina si chiama 'localizzazionesoftware.htm' molto probabilmente tratta di questo
argomento.
per cercare la frase nell'indirizzo web
allinurl: localizzazione software
YAHOO
CRITERI DI RILEVANZA.
il testo nella pagina, l'accuratezza del titolo e della descrizione, il suo indirizzo (URL), la
fonte, i link presenti nella pagina ed in altre pagine che la citano, e altre caratteristiche del
sito web.
Criteri di ricerca avanzata.
In Yahoo la ricerca avanzata copre molti dei criteri già visti per Google
Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.
La presenza della parola nel titolo
intitle:localizzazione+software
La presenza della parola nel dominio
inurl:localizzazione+soft
La presenza della parola nel titolo
intitle:"localizzazione software"
localizzazione OR software
Ricerca in dominio
http://it.search.yahoo.com/search?va=localizzazione+software&vs=www.antotranslation.com
Per tipo file
http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf
Lingua
http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it
ICEROCKET
Criteri di ricerca avanzata.
frase esatta:
"localizzazione software"
OR
localizzazione OR software
esclusione
-localizzazione -software
dominio
localizzazione software site:antotranslation.com
Buona la ricerca tra le news, suddivise in 5 categorie
MSN
Criteri di ricerca avanzata.
frase esatta:
"localizzazione software"
OR
(localizzazione OR software)
esclusione
-(localizzazione software)
dominio
localizzazione software site:antotranslation.com
in dominio
link:antotranslation.com
paese di provenienza
(loc:IT OR loc:AU)
lingua:
language:it
Una particolarità di MSN search è la possibilità di calibrare la visibilità dei risultati con tre
barre a scorrimento nella ricerca avanzata, in modo visuale, o impostando dei valori da
0..100 nella stringa di comando.
I criteri sono:
corrispondenza esatta {mtch=50}
indice di popolarità (link popularity) {popl=50}
indice di aggiornamento della pagina {frsh=50}
ALLTHEWEB
Criteri di ricerca avanzata.
In ALLTHEWEB la ricerca avanzata copre molti dei criteri già visti per Google
Le sintassi per frase esatta, OR, AND ed esclusione sono del tutto simili.
La presenza della parola nel titolo
title:localizzazione+software
La presenza della parola nel dominio
url:localizzazione+soft
Ricerca in un web site
site:www.antotranslation.com
Ricerca in dominio
domain:.it
Per tipo file
http://it.search.yahoo.com/search?va=localizzazione+software&vf=pdf
Lingua
http://it.search.yahoo.com/search?va=localizzazione+software&vl=lang_it
HOTBOT
Criteri di ricerca avanzata.
Hotbot ha attualmente il più evoluto sistema di ricerca avanzata. Prevede tutte le caratteristiche
già viste per Google, inoltre ha un filtro temporale senza le limitazioni che hanno Google e
Yahoo,i formati di file sui quali si possono impostare le ricerche sono per numero e qualità
migliori.
Il filtro di definizione delle parole è più dettagliato e si possono operare combinazioni tra
posizione dei termini nel documento e inclusione/escusione dei termini stessi a livello di singolo
termine.
Ad esempio, si può cercare la parola software nel titolo e la parola localizzazione nel URL.
Infine questi criteri possono essere impostati da HOTBOT per interrogare direttamente la base dati
di GOOGLE (la più ampia in assoluto) e di ASK JEEVES
ALTAVISTA
Criteri di ricerca avanzata.
In ALTAVISTA la ricerca avanzata copre tutti i criteri già visti per Google e Yahoo.
Come in HotBot e ASK JEEVES il filtro temporale è molto più duttile potendo comporre una data
effettiva,inoltre è possibile definire un range per anno, mesi e settimane.
Infine, si può comporre una stringa di ricerca in stile SQL combiando gli elementi con le logiche
booleiane (per utenti esperti)
TEOMA
CRITERI DI RILEVANZA.
In Teoma è definita authority ed è molto simile alla link popularity di Google con in più la
garanzia di esclusione dei link a siti spam.
La caratteristiche di Teoma è la lista dei termini suggeriti in modo contestuale rispetto alle
parole ricercate.
Altro servizio legato ai termini ricercati è l'elenco di siti che presentano collezioni di link
correlati. Questa è una proprietà molto potente che permette di estendere le ricerche in modo molto
accurato.
Criteri di ricerca avanzata.
Sono molto simili a quelli utilizzati da HOTBOT, inoltre gestisce implicitamente i plurali delle
parole e le forme derivate.
GIGABLAST
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,tipo di file, presenza dei termini in URL e nome della pagina.
Questi sono le sintassi da utlizzare
suburl:
site:
url:
title:
ip: (se si conosce soltanto l'indirizzo tcp/ip e si vuole vedere altre informazioni a riguardo)
link: -link:(per esclusione)
type:pdf type:doc type:xls type:ppt type:ps type:text
Nell'esposizione dei risultati saranno presentati in percentuale la frequenza delle parole che
ricorrono tra i risultati ottenuti. Queste sono a loro volta suggerimenti di termini alternativi.
ENTIREWEB
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, lingua, geografici, presenza dei termini in URL e nome della
pagina.
LYCOS
Una delle caratteristiche di Lycos è la presenza tra le risorse correlate al motore di ricerca di
uno specializzato nella ricerca di risorse di discussione legati all'argomento cercato (forum,
mailing list, ecc). Ottimo anche il motore di ricerca delle news per parola chiave.
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, range di data, lingua, presenza dei termini in URL e nome
della pagina.
METAMOTORI
MAMMA
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia, lingua, goegrafici, presenza dei termini in URL e nome della
pagina.
Questo metamotore permette di selezionare in quali directory effettuare le ricerche
-Open Directory
-Looksmart Directory
-Business.com
-About.com
-Mamma's Collection
e in quali search engine
-Teoma
-Google
-MSN
-Entireweb
-Gigablast
IXQUICK
Si Può usare il linguaggio naturale o complesse ricerche booleane che supporta frasi, wildcard
(meta-caratteri), termini omessi, termini obbligatori, parentesi ed altri modificatori come NEAR
(simile a) in quanto il metamotore conosce quali motori di ricerca possono far fronte a ricerche
complesse.
Vengono eliminati i duplicati ma vengono sommati per dare la maggiore rilevanza al risultato; per
cui, se lo stesso risultato è stato ottenuto in più motori, maggiore rilevanza verrà data alla
pagina.
I metacaratteri possono sostituire un carattere con qualsiasi altro.
Il comando NEAR permette di definire un termine correlato ad un altro.
Questa è la sintassi utilizzata:
+title:
+domain:
host:
immagine:
image:
url:
link:
text:
related:
Si possono selezionare i motori utilizzati a seconda della versione nazionale utilizzata.
Questo metamotore, infatti, utilizza un pool di search engine che comprende, oltre a quelli più
importanti, anche quelli a carattere nazionale.
Si possono fare delle domande in linguaggio discorsivo che verranno trasferite a quei motori di
ricerca che accettano le ricerche in linguaggio naturale.
CLUSTY
Nella finestra di risultato Clusty presenta un elenco di terminologie correlate al contesto della
ricerca richiesta. Questo permette di cercare in modo alternativo l'argomento iniziale.
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,lingua, presenza dei termini in URL e dominio. La sintassi
utilizzata:
domain:
host:
selezione di ricerca tra:
GigaBlast
MSN
Lycos
Looksmart
Wisenut
Open Directory
Overture
WEBCRAWLER
Criteri di ricerca avanzata.
Tutti quelli relativi a terminologia,lingua, range di data, presenza dei termini in URL e dominio.
|