Recherches sur le web: bruit vs silence

stratégie de recherche

Le moteur de recherche est la stratégie du pire; il faut mieux avoir une idée d'où se trouve l'information au départ que de "chercher une aiguille dans une meule de foin".
La recherche par crawlers a en effet une fâcheuse tendance à favoriser deux anthonymes de théorie générale de l'information, le bruit (trop d'occurrences, pas assez de critères discriminants pour retrouver l'objet recherché) ou le silence (aucune occurrence pertinente). Comme nous le verrons, certaines stratégies de recherches permettent de partiellement suppléer à cet état de fait, mais il demeure.
De ce fait, le but de toute stratégie de recherche est de parvenir, le plus rapidement possible, à situer les ressources disponibles sur un sujet donné et à ne plus avoir à passer par le fastidieux tri occasionné par une recherche sur un moteur.

site d'entrée

Les crawlers naissent, vivent et meurent. On avait promis la mort d'altavista il y a quelques mois, altavista a revu sa politique et est à nouveau le 2e (non, 3e, depuis l'arrivée de fast) moteurs de recherche, en nombre de pages indexées (ce qui ne signifie pas en qualité).

Il faut donc choisir un site d'entrée, entretenu (ou alors faire ce travail...) et recensant différents moteurs de recherche (en anglais crawler), p. ex. Tecfa http://tecfa.unige.ch/navi/pointers.html

moteurs de recherche

Des ressources existent sur le web pour comparer et apprendre à utiliser des moteurs de recherche.
Vous pouvez p. ex. allez voir à l'uni de Berkeley (Californie), http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html

crawlers Altavista (simple / avancée) ou selon les conseils de DKS plutôt RagingSearch/AltaVista
répertoires Yahoo
encyclopédies Britannica
database IMDb
database Full Text Athena | Gallica | Projet Gutenberg.

définition

(source:http://www.msj.u-3mrs.fr/linux/prj/jargonf/general/bgfrm.html):
moteur de recherche: Logiciel permettant d'effectuer des recherches dans les immenses ressources de l'Internet. Ces systèmes se succèdent à un rythme effrené. On distingue pour le moment trois types de moteurs : ceux dont l'indexation est effectuée par des humains (type Yahoo), les robots, aussi appelés spiders (Alta Vista), et les méta-moteurs, qui permettent l'utilisation des capacités des autres d'une façon unifiée.

Métamoteurs:
Metacrawler
Copernic

Limites

temps, indexation = forte fluctuabilité
ex. "Andrei Roublev" sous Metacrawler donne 27 occurrences dont 0 pour Altavista, même recherche avec Altavista = 139 occurrences; à 30 secondes d'intervalle, Metacrawler donne 77 occurrences!

Troncatures & opérateurs booléens: AND, OR, NOT, NEAR

Troncatures: particulièrement utiles, puisqu'elles permettent de définir un critère de recherche variable, p. ex. bogomil* AND bulgar* identifiera bogomil, bogomile, bogomiles, bogomilian et idem pour bulgar*. Attention, les troncatures (wildcards en anglais) varient d'un système à l'autre (en général *, parfois $ ou encore ?).

Le NOT peut être particulièrement intéressant lorsque les résultats de la recherche donnent un grand nombre d'occurrences, où l'on souhaite éliminer certaines occurrences qui sont responsables en majorité du bruit. Attention, sur certains sites francophones, le NOT s'écrit SANS. On peut parfois aussi utiliser des opérateurs mathématiques (+ pour ET, - pour NOT). De manière générale, il faut TOUJOURS consulter les rubriques d'aides avancées qui expliquent le fonctionnement du moteur de recherche et des options booléennes. Sur altavista p. ex., l'opérateur NOT s'écrit AND NOT.

Exemple: soit une recherche sur Calvin via un moteur de recherche français, Nomade: sur une catégorie et 25 sites recensés, on constate la présence d'occurrences liées aux "comics" Calvin & Hobbes; pour éviter ces occurrences, on peut utiliser l'opérateur SANS: Calvin SANS Hobbes

L'opérateur de proximité NEAR permet de trouver des sites contenant 2 ou plusieurs termes situés à une "distance" évaluée en nombre de mots.

Combinaison de plusieurs opérateurs: soit une recherche francophone portant sur la notion de "sang du christ", "christ en sang" etc.; on veut exclure les occurrences commerciales, ainsi que les sites français, canadiens, belges et suisses, ainsi que les références au sida ou au saint-suaire: on peut imaginer la ligne de commande suivante:
(Christ NEAR sang) AND NOT (sida OR ".it" or suaire or ".be" or ".ch" or ".com" or ".ca" or ".fr")
altavista nous donne 341 pages pour cette recherche, alors qu'il nous donne 2.5K pages pour +sang +Christ

Opérateurs sur chaînes de caractères

"La passion selon Saint-Matthieu" Altavista 33 pages, idem avec
"La passion selon Saint Matthieu" Altavista 12 pages
La passion selon Saint-Matthieu Altavista >3Mio pages!

Attention aussi aux moteurs de recherche "case sensitive", qui distinguent caractères majuscules/minuscules; ex. avec altavista, 2.5Koccurrences pour +saint +matthieu, mais 1000 de moins avec +Saint +Matthieu

Orthographe

"La passion selon Saint-Mathieu" Altavista 12 pages (noter toutefois que cette orthographe, moins courante, est néanmoins parfaitement juste)

Langues & pays

Translitérations: distinguer p. ex. Roublev (env. 400 occurrences sur Altavista) de Rublev (2600 occurrences), Rubliov donne 165 occurrences, alors que Rublef et Rubleff ne donnent qu'une occurrence

De manière générale, il peut toujours être utile de chercher dans des moteurs de recherches nationaux (certains grands moteurs internationaux, comme Yahoo ou Altavista, proposent des moteurs régionaux/nationaux).

Autre point important: le W3C (consortium internet) a proposé des standards pour déclarer des critères nationaux & linguistiques sur des pages HTML, mais ces standards, relativement récents, ne sont pas forcément utilisés - ou utilisés correctement - par les concepteurs de pages web. Ainsi, un site francophone peut fort bien ne pas apparaître dans une recherche où l'on spécifie que l'on veut des résultats en français (p. ex. une chaire de littérature française dans un pays anglo-saxon).

Caractères non-latins: ex: moteur russe: aport.ru | ou japonais

Multimédia

Images

Altavista - Rublev
Fast/Lycos (toujours Rublev)

Sons

/De nombreux sons sont disponibles sur internet; outre les sites MP3, pauvres en musique classique sur certains sites "grand public" (exemple), on peut utiliser des moteurs de recherche plus académiques comme altavista, exemple: Russian liturgy
Voici un exemple concret

Recherche DANS un site à l'aide d'un moteur de recherche

Utiliser la commande host: suivi du nom du serveur suivi de la chaîne de caractères recherchée
Exemple

Recherche DANS une page web

Une fois la page chargée, vous pouvez utiliser l'outil de recherche interne de votre navigateur, qui vous permet de situer précisément l'emplacement de la chaîne de caractères recherchée (Ctrl-F ou menu Edition-Rechercher); de plus, toutes les pages chargées par cette éditeur accepteront la même chaîne de recherche par défaut, si vous tapez Ctrl-F.

Recherche des pointeurs sur un URL

(Google et autres) La requête link : <url> affiche tous les backlinks d'une URL donnée - c'est-à-dire les pages pointant vers cette URL. Par exemple, link:www.google.com affiche toutes les pages pointant vers la page d'accueil de Google. Vous ne pouvez pas associer une recherche link: avec une recherche normale par mot-clé.

Veille

Certains produits existent (Copernic version pro) qui vous permettent de lancer automatiquement des recherches prédéterminées, avec un résultat qui vous livre p. ex. uniquement les occurrences nouvelles par rapport à votre dernière recherche.
Par rapport aux liens/ressources que vous avez situé, nous vous recommandons de privilégier des portails d'accès institutionnels ou dont le webmaster vous semble opérer une mise à jour régulière, afin de vous éviter de devoir effectuer vous-même ce fastidieux travail (les liens bougent vite, et rien de plus énervant qu'une page de liens morts!).

Réalité du web indexé

Contrairement à ce que l'on pourrait croire, seul 10 à 15% du web semble être indexé par les moteurs de recherche. Lorsque vous effectuez une recherche, ce n'est pas dans le web, mais dans une base extraite du web. Il n'y a donc pas isomorphisme entre le web et les moteurs. Ainsi, un lien indiqué par une recherche peut fort bien être mort depuis.
D'autre part, les robots et algorithmes des crawlers sont des objets complexes. Les philosophies varient du tout au tout: celle de "bigger is better" (Yahoo, Fast, Altavista), qui estiment que la variable déterminante est le nombre de pages indexées, à celle du "small is beautifull" (Google, dont le but est d'offrir peu d'occurrences, mais pertinentes du point de vue du sens).

| Tecfa, Staf-Fanny, Staf 14, ex. 7 | F.Radeff