Recherches sur le web: bruit
vs silence
stratégie de recherche
Le moteur de recherche est la
stratégie du pire; il faut mieux avoir une idée d'où
se trouve l'information au départ que de "chercher une aiguille
dans une meule de foin".
La recherche par crawlers
a en effet une fâcheuse tendance à favoriser deux anthonymes
de théorie générale de l'information, le bruit (trop
d'occurrences, pas assez de critères discriminants pour retrouver
l'objet recherché) ou le silence (aucune occurrence pertinente).
Comme nous le verrons, certaines stratégies de recherches permettent
de partiellement suppléer à cet état de fait, mais
il demeure.
De ce fait, le but de toute
stratégie de recherche est de parvenir, le plus rapidement possible,
à situer les ressources disponibles sur un sujet donné et
à ne plus avoir à passer par le fastidieux tri occasionné
par une recherche sur un moteur.
site d'entrée
Les crawlers naissent, vivent
et meurent. On avait promis la mort d'altavista il y a quelques mois, altavista
a revu sa politique et est à nouveau le 2e (non, 3e, depuis l'arrivée
de fast) moteurs de recherche, en nombre de pages indexées (ce qui
ne signifie pas en qualité).
Il faut donc choisir un site
d'entrée, entretenu (ou alors faire ce travail...) et recensant
différents moteurs de recherche (en anglais crawler), p. ex. Tecfa
http://tecfa.unige.ch/navi/pointers.html
moteurs de recherche
Des ressources existent sur
le web pour comparer et apprendre à utiliser des moteurs de recherche.
Vous pouvez p. ex. allez
voir à l'uni de Berkeley (Californie), http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html
crawlers Altavista
(simple / avancée) ou selon les conseils de DKS plutôt RagingSearch/AltaVista
répertoires Yahoo
encyclopédies Britannica
database IMDb
database Full Text Athena
| Gallica | Projet
Gutenberg.
définition
(source:http://www.msj.u-3mrs.fr/linux/prj/jargonf/general/bgfrm.html):
moteur de recherche: Logiciel
permettant d'effectuer des recherches dans les immenses ressources
de l'Internet. Ces systèmes se succèdent à un rythme
effrené. On distingue pour le moment trois types de moteurs :
ceux dont l'indexation est effectuée par des humains (type Yahoo),
les robots, aussi appelés spiders (Alta Vista), et les méta-moteurs,
qui permettent l'utilisation des capacités des autres d'une façon
unifiée.
Métamoteurs:
Metacrawler
Copernic
Limites
temps, indexation = forte fluctuabilité
ex. "Andrei Roublev" sous
Metacrawler donne 27 occurrences dont 0 pour Altavista, même
recherche avec Altavista = 139 occurrences; à 30 secondes d'intervalle,
Metacrawler donne 77 occurrences!
Troncatures & opérateurs booléens:
AND, OR, NOT, NEAR
Troncatures: particulièrement
utiles, puisqu'elles permettent de définir un critère de
recherche variable, p. ex. bogomil* AND bulgar* identifiera bogomil, bogomile,
bogomiles, bogomilian et idem pour bulgar*. Attention, les troncatures
(wildcards en anglais) varient d'un système à l'autre (en
général *, parfois $ ou encore ?).
Le NOT peut être particulièrement
intéressant lorsque les résultats de la recherche donnent
un grand nombre d'occurrences, où l'on souhaite éliminer
certaines occurrences qui sont responsables en majorité du bruit.
Attention, sur certains sites francophones, le NOT s'écrit SANS.
On peut parfois aussi utiliser des opérateurs mathématiques
(+ pour ET, - pour NOT). De manière générale, il faut
TOUJOURS consulter les rubriques d'aides avancées qui expliquent
le fonctionnement du moteur de recherche et des options booléennes.
Sur altavista p. ex., l'opérateur NOT s'écrit AND NOT.
Exemple: soit une recherche
sur Calvin
via un moteur de recherche français, Nomade: sur une catégorie
et 25 sites recensés, on constate la présence d'occurrences
liées aux "comics" Calvin & Hobbes; pour éviter ces occurrences,
on peut utiliser l'opérateur SANS: Calvin
SANS Hobbes
L'opérateur de proximité
NEAR permet de trouver des sites contenant 2 ou plusieurs termes situés
à une "distance" évaluée en nombre de mots.
Combinaison de plusieurs
opérateurs: soit une recherche francophone portant sur la notion
de "sang du christ", "christ en sang" etc.; on veut exclure les occurrences
commerciales, ainsi que les sites français, canadiens, belges et
suisses, ainsi que les références au sida ou au saint-suaire:
on peut imaginer la ligne de commande suivante:
(Christ NEAR sang) AND
NOT (sida OR ".it" or suaire or ".be" or ".ch" or ".com" or ".ca" or ".fr")
altavista
nous donne 341 pages pour cette recherche, alors qu'il nous donne 2.5K
pages pour +sang +Christ
Opérateurs sur chaînes de caractères
"La passion selon Saint-Matthieu"
Altavista 33 pages, idem avec
"La passion selon Saint
Matthieu" Altavista 12 pages
La passion selon Saint-Matthieu
Altavista >3Mio pages!
Attention aussi aux moteurs
de recherche "case sensitive", qui distinguent caractères majuscules/minuscules;
ex. avec altavista, 2.5Koccurrences pour +saint +matthieu, mais 1000 de
moins avec +Saint +Matthieu
Orthographe
"La passion selon Saint-Mathieu"
Altavista 12 pages (noter toutefois que cette orthographe, moins courante,
est néanmoins parfaitement juste)
Langues & pays
Translitérations: distinguer
p. ex. Roublev (env. 400 occurrences sur Altavista) de Rublev (2600 occurrences),
Rubliov donne 165 occurrences, alors que Rublef et Rubleff ne donnent qu'une
occurrence
De manière générale,
il peut toujours être utile de chercher dans des moteurs de recherches
nationaux (certains grands moteurs internationaux, comme Yahoo ou Altavista,
proposent des moteurs régionaux/nationaux).
Autre point important: le
W3C (consortium internet) a proposé des standards pour déclarer
des critères nationaux & linguistiques sur des pages HTML, mais
ces standards, relativement récents, ne sont pas forcément
utilisés - ou utilisés correctement - par les concepteurs
de pages web. Ainsi, un site francophone peut fort bien ne pas apparaître
dans une recherche où l'on spécifie que l'on veut des résultats
en français (p. ex. une chaire de littérature française
dans un pays anglo-saxon).
Caractères non-latins:
ex: moteur russe: aport.ru
| ou japonais
Multimédia
Images
Altavista
- Rublev
Fast/Lycos
(toujours Rublev)
Sons
/De nombreux sons sont disponibles
sur internet; outre les sites MP3, pauvres en musique classique sur certains
sites "grand public" (exemple),
on peut utiliser des moteurs de recherche plus académiques comme
altavista, exemple: Russian
liturgy
Voici un exemple
concret
Recherche DANS un site à
l'aide d'un moteur de recherche
Utiliser la commande host: suivi
du nom du serveur suivi de la chaîne de caractères recherchée
Exemple
Recherche DANS une page web
Une fois la page chargée,
vous pouvez utiliser l'outil de recherche interne de votre navigateur,
qui vous permet de situer précisément l'emplacement de la
chaîne de caractères recherchée (Ctrl-F ou menu Edition-Rechercher);
de plus, toutes les pages chargées par cette éditeur accepteront
la même chaîne de recherche par défaut, si vous tapez
Ctrl-F.
Recherche des pointeurs sur
un URL
(Google et autres) La requête
link : <url> affiche tous les backlinks d'une URL donnée - c'est-à-dire
les pages pointant vers cette URL. Par exemple, link:www.google.com affiche
toutes les pages pointant vers la page d'accueil de Google. Vous ne pouvez
pas associer une recherche link: avec une recherche normale par mot-clé.
Veille
Certains produits existent (Copernic
version pro) qui vous permettent de lancer automatiquement des recherches
prédéterminées, avec un résultat qui vous livre
p. ex. uniquement les occurrences nouvelles par rapport à votre
dernière recherche.
Par rapport aux liens/ressources
que vous avez situé, nous vous recommandons de privilégier
des portails d'accès institutionnels ou dont le webmaster vous semble
opérer une mise à jour régulière, afin de vous
éviter de devoir effectuer vous-même ce fastidieux travail
(les liens bougent vite, et rien de plus énervant qu'une page de
liens morts!).
Réalité du web
indexé
Contrairement à ce que
l'on pourrait croire, seul 10 à 15% du web semble être indexé
par les moteurs de recherche. Lorsque vous effectuez une recherche, ce
n'est pas dans le web, mais dans une base extraite du web. Il n'y a donc
pas isomorphisme entre le web et les moteurs. Ainsi, un lien indiqué
par une recherche peut fort bien être mort depuis.
D'autre part, les robots
et algorithmes des crawlers sont des objets complexes. Les philosophies
varient du tout au tout: celle de "bigger is better" (Yahoo, Fast, Altavista),
qui estiment que la variable déterminante est le nombre de pages
indexées, à celle du "small is beautifull" (Google, dont
le but est d'offrir peu d'occurrences, mais pertinentes du point de vue
du sens).
|
Tecfa, Staf-Fanny, Staf 14, ex. 7 | F.Radeff