Chapitre 16 : La recherche d'information 1 - Les Web
Il existe des Web spécialisés
dans la recherche d'information sur l'Internet. Ces Webs sont couplés
Ils permettent de retrouver n'importe quel type d'information, que ces
informations soient stockées sur un Web, sur un serveur ftp ou dans
les News.
Avant de passer en revue la liste des Web chercheurs, retenons les conventions
suivantes :
Enfin, pour chacun des sites donnés, la page de lancement de
la requête est indiquée.
Lorsque le site permet la recherche indexée par mot-clé,
le symbole Dans le cas où votre navigateur n'accepte pas les envois
de requêtes par la touche Entrée de votre clavier (cas
d'Internet Explorer), vous devez cliquer sur le symbole La requête lancée est toujours une requête simplifiée
mais qui correspond au cas le plus général. Si vous désirez
affiner les critères de recherche, il vous suffit de vous rendre
sur le site en cliquant sur les mots Page de requête.
[http://a2z.lycos.com/]
A2z reprend les sites de Lycos les plus visités et les organise
par thèmes. Il est également possible de faire une recherche
par clé sur ce sous-ensemble de sites.
Une recherche sur a2z ne vous renverra donc pas sur un site peu
fréquenté... donc, pas sur un site français ou underground.
[http://www.advalvas.be]
Ad Valvas reprend quelques milliers de sites Web du territoire belge.
[http://altavista.digital.com]
Alta Vista est un moteur proposé par la société
Digital. Il se veut le plus complet depuis 1996 puisqu'il couvre aujourd'hui
plus de 100 millions de pages Webs. Il permet de rechercher des informations
dans les Webs ou dans les News.
[http://france.carrefour.net]
Cette base d'adresses françaises indexées par Oracle,
possède un mirroir dans chaque pays francophone que l'on retrouve
par la syntaxe suivante :<pays>.carrefour.net. Par exemple, belgique.carrefour.net.
[http://web.urec.fr/france/france.html]
Ce chercheur donnait jadis les références par index, par
thèmes, par nouveautés de tous les serveurs déclarés
en France. Il vous donne aujourd'hui uniquement les adresses des sites
universitaires ne désirant pas consacrer son temps de maintenance
aux Web exclusivement commerciaux.
[http://www.cnet.com/]
CNET permet la recherche de logiciels, de toutes les bases de données
et des moteurs de recherche organisés par thèmes. L'interface
Web de CNET est très impressionnante par son contenu, mais un peu
trop foisonnante pour une simple recherche.
CNET présente l'originalité de permettre :
Recueil de différents index de recherche.
[http://www.dejanews.com/]
Ce service recense les news parues par Auteur, Date ou Sujet. Il n'est
pas inutile de savoir que si vous postez dans les News, vous devenez automatiquement
un NetCitizen répertorié.
[http://france.ecila.com]
Développé en France, ce moteur effectue des recherches
sur les Webs situés sur le territoire français. L'avantage
de ce nouveau chercheur réside dans le fait qu'il est entièrement
écrit dans la langue de Voltaire et qu'il constitue un véritable
moteur de recherche à l'instar d'Infoseek et de Lycos.
Il contient une section de nouveautés particulièrement
intéressante pour connaître l'actualité Internet française.
[http://www.eureka-fr.com]
Ce site a été créé le 13 mai 1996, et promet
d'être un concurrent sérieux du catalogue de l'UREC. Il gère
une base des adresses des connectés français.
Et pour rechercher une adresse :
[http://www.excite.com]
Excite comprend 2 millions de pages référencées
et permet la recherche dans les News.
[http://www.four11.com]
Four11 est capable de retrouver une adresse e-mail à partir d'un
nom et d'un prénom d'utilisateur.
[http://ftpsearch.ntnu.no/ftpsearch]
Ftp Search maintient un index de sites ftp ainsi que leur contenu. Lorsque
vous lancez une requête sur Ftp Search en entrant un nom de fichier,
vous trouvez immédiatement la liste des serveurs où il est
disponible.
Bien plus rapide que les moteurs du CNET, ce site peu connu des
utilisateurs européens, est pourtant le plus solide et le plus rapide
quant aux recherches de fichiers.
Qui plus est, le nombre d'options de recherche est impressionant.
[http://francite.com]
Francité est le plus renommé des sites de recherche québécois.
[http://galaxy.einet.net]
Galaxy présente ses informations sous forme de thèmes
hiérarchiques et inclut aussi bien des pages Web que des menus Gopher
et des adresses Telnet.
Ce moteur est l'oeuvre d'une société texane, EiNet.
[http://www.acorus.fr/general/index.htm]
Général Moteur est un site qui va droit au coeur d'UNGI
puiqu'il reprend le présent chapitre avec un habillage différent.
[www.hachette.net]
Il est de nombreux sites où les Web sont sélectionnés,
classés, commentés, celui de Hachette est l'un d'eux. Qui
plus est, il est ergonomique, bien commenté, clair et rapide.
HotBot est parfois lent mais il référence 54 millions
de pages Web. Il est maintenu par l'équipe de HotWired.
[www.indexa.fr]
INDEXA est un annuaire français de sites Internet destiné
avant tout aux professionnels ; il a été conçu pour
vous permettre de trouver l'information que vous recherchez par divers
classements thématiques.
[http://www.iaf.net]
IAF permet de trouver l'adresse e-mail d'un correspondant mais également
de trouver son nom exact. Ceci est utile lorsque vous recevez un message
dont l'adresse ne renseigne pas sur le nom de son expéditeur. C'est
cette deuxième possibilité qui est donnée par la ligne
de saisie ci-dessous.
[http://guide.infoseek.com]
Infoseek est un moteur de recherche qui s'est illustré en proposant
une première version d'accès payant. Maintenant, tout est
rentré dans l'ordre : Infoseek est libre d'accès et très
puissant.
[http://lokace.iplus.fr]
Ce chercheur français recherche les sites français sur
l'ensemble des pays francophones. Comme Ecilia, Lycos ou Infoseek, il est
muni d'un robot de recherche. A la différence d'Ecila, il permet
une recherche thématique et il n'indexe pas uniquement les sites
français, mais aussi les sites où des mots français
sont présents.
[http://lycos.cs.cmu.edu/]
Lycos qui fut développé à Carnegie Mellon est maintenant
financé par Microsoft. Lycos était le plus gros moteur de
recherche du WWW mais ses réponses étaient souvent pléthoriques.
Il a été couplé depuis peu avec A2Z pour référencer
les Webs par thèmes.
Lycos indexe 11 millions de pages Web.
[http://www.mckinley.com/]
Magellan est une base de 2 millions de sites qui sont contrôlés
et classifiés. Les sites apparaissant avec un feu vert sont lisibles
par des non-spécialistes. A chaque site, un nombre d'étoiles
est affecté pour indiquer si le site est bien tenu, propre à
la navigation, innovant.
Magellan ne comprend que les sites qui y ont été
déclarés et acceptés par le comité de lecture.
[http://www.nomade.fr]
Nomade est une base de données hierarchique de sites WWW qui
se complète par l'enregistrement volontaire de leur Webmestre.
[http://techreports.larc.nasa.gov/cgi-bin/NTRS]
NTRS (NASA Technical Report Server)
permet de rechercher des articles scientifiques. C'est un regroupement
de plusieurs moteurs. Les principales bases de données indexées
par NTRS sont :
Handbook
[http://login.eunet.no/~presno/bok/i.html]
Ce guide regroupe un ensemble de pages Web regroupées par thèmes.
[http://www.opentext.com/omw/f-omw.html]
Open Text Index permet la recherche de phrases entières, de mots
clés dans une base de données textuelle comprenant 27 millions
de pages Web. Open Text fait aujourd'hui entre 100 000 et 200 000 recherches
par jour et consulte 50 000 Web par jour pour enrichir sa base de connaissance.
[http://www.pagesweb.com/recherche]
France Telecom a racheté Echo, qui est un produit made in France
dont le robot est capable de faire le tour des Web français en quelques
heures.
Ceux qui suivent UNGI depuis le début se souviennent de la mention
portée ici sur les méthodes marketing particulièrement
originales des développeurs d'Echo.
[http://www.wanadoo.fr/qqo]
QuiQuoiOu, l'annuaire des services francophones de Wanadoo, est ouvert
à tous. La recherche se fait librement ou à l'aide d'un classement
thématique. QuiQuoiOu regroupe quelque 12 000 adresses.
[http://guaraldi.cs.colostate.edu:2000/form?lang=french]
Savvy fait partie des ces méta-moteurs de recherche qui envoient
pour vous une requête dans la plupart des moteurs de recherche.
[http://www.stpt.com]
Starting point est organisé hiérarchiquement, avec une
recherche des nouveautés et une recherche par thème. Le moteur
de recherche de Starting Point est un méta-chercheur qui indexe
les bases SavvySearch, Excite, InfoSeek, WebCrawler, Lycos, W3 Catalog,
AliWeb, DejaNews MetaCrawler, Alta Vista, Magellan, Yahoo, Inktomi, Open
Text, Archie, URLsearch et Netfind.
[http://search.ch/]
Swiss Search est une bonne base de recherche des sites Web hélvètes.
[http://www.cs.indiana.edu/cstr/search]
L'UCSTRI (Unified Computer Science Technical Report Index) a
été conçu pour la recherche de documents techniques
en ligne.
Il indexe 6000 documents techniques sur 120 sites ftp.
[http://www.uroulette.com:8000]
Quand vous aurez tout essayé pour retrouver une information,
il ne vous restera qu'URoulette. C'est un Web qui vous enverra sur un Web
au hasard.
[http://webcrawler.com]
WebCrawler est un programme de recherche automatique des informations
sur Web. Il est couplé avec Lycos et espionne en permanence les
nouveaux Webs présents sur le réseau pour les mettre dans
sa base de données.
La recherche des Web par WebCrawler se fait en consultant les
autres moteurs de recherche. Donc, un Web enregistré sur aucun moteur
ne le sera jamais par WebCrawler. (WebCrawler accepte cependant les demandes
d'enregistrement manuelles par les auteurs de Web).
Il est très exhaustif, mais les indexations automatiques ne permettent
pas toujours des classements heureux. Il arrive qu'avec de tels automatismes,
on passe à côté de ce qu'on cherche.
La base de données Web Crawler comprend 100 Mo de données
et référence 1,5 millions de documents.
WebCrawler, l'oeuvre de Brian Pinkerton, fonctionne sur des Pentium
avec NextStep comme système d'exploitation et est hébergé
par America on Line.
[http://www.whowhere.com/]
WhoWhere permet de retrouver l'adresse d'une personne par son nom (même
si ce dernier est entré de façon phonétique).
Une pastille de couleur vous indique si le nom trouvé correspond
de près ou de loin au nom recherché.
[http://www.yahoo.com/]
Yahoo (Yet Another Hierarchically Organized
Oracle) est un catalogue organisé par thèmes de
sujets. La recherche sur Yahoo se fait en cherchant une catégorie
de sujet, puis en descendant dans une sous-catégorie, puis dans
une autre, etc...
Il faut noter que si Yahoo est le dernier Web de la liste, c'est
uniquement pour des raisons d'ordre alphabétique. Car c'est actuellement
la base de données la plus complète. Elle est victime de
son succès car consultée en permanence du monde entier.
Si elle fut développée à l'origine par l'université
de Stanford, la base Yahoo est maintenant maintenue par ses concepteurs,
organisés en société indépendante.
Contrairement aux moteurs de recherche, Yahoo présente
les pages par leur URL, suivi d'un commentaire de deux ou trois lignes,
entré par le propriétaire de la page.
Dans une rubrique donnée, vous pouvez entrer votre propre
page, en cliquant sur le bouton add.
[http://www.yahoo.fr/]
Après l'oncle d'Amérique, voici le Français de
la famille, qui référence UNGI avec les fameuses lunettes
de soleil. On est encore loin de la multitude de rubriques qui font le
succès de YAHOO. Peut être que plus de rubriques même
vides inciteraient quelques Webmestres à se lancer.
[http://www.yweb.com/home-fr.html]
Recueil de tous les sites européens, avec une interface multi-langues.
vous rappelle que le clic sur l'hypertexte vous amènera hors du
guide et non pas dans la table générale des matières
comme c'est d'ordinaire le cas.
vous indique que le chercheur permet une recherche par index. Les bases
de données auxquelles on accède par cette méthode,
permettent la recherche d'une information par un mot ou par un groupe de
mots. Le risque de ce type de recherche est de vous aiguiller vers des
documents qui contiennent le mot cherché mais dont le thème
n'a qu'un rapport lointain avec le sujet désiré.
vous indique que le chercheur est spécialisé dans la recherche
des utilisateurs ou d'adresses e-mail.
vous indique que le chercheur est spécialisé dans la recherche
par thèmes. On trouve dans cette catégorie des bases de données
où les informations sont rangées par sujet thématique.
Au début, quelques grands thèmes (Internet, loisirs, éducation,
etc...) vous permettent de descendre dans des niveaux plus précis
où les informations sont classées par sous-thèmes
et ainsi de suite. Le problème de ce type de base de données
est qu'il faut un peu de temps entre chaque palier de recherche.
indique que le français est la langue du Web.
vous indique que le chercheur est spécialisé dans la recherche
par lieu géographique, souvent représenté sous forme
de cartes. Ce type de recherche s'applique bien au monde des loisirs, du
tourisme et bien sûr, de la géographie.
vous indique que le chercheur offre les nouveautés du monde Web.
mentionne
la zone de saisie d'un mot clé. Il suffit d'entrer le mot objet
de votre recherche avant de le valider par la touche Entrée
de votre clavier pour lancer une requête sur le serveur correspondant.
.
16.1 - a2z
16.2 - Ad Valvas
16.3 - Alta Vista
16.4 - Carrefour.net
16.5 - Chercheur français du CNRS
16.6 - CNET
16.7 - Deja News Service
16.8 - Ecila
16.9 - Eurêka
16.10 - Excite
16.11 - Four11
16.12 - Ftp Search
16.13 - Francité
16.14 - Galaxie
16.15 - Général Moteurs
16.16 - Hachette
16.17 - HotBot
[http://www.hotbot.com]
16.18 - Indexa
Page
de requête
16.19 - Internet Address Finder
16.20 - Infoseek
16.21 - Lokace
16.22 - Lycos
16.23 - Magellan
16.24 - Nomade
16.25 - NTRS
16.26 - The Online World Resource
16.27 - Open Text Index
16.28 - Pages Web de France Telecom
Page de requête
16.29 - Présence Web
Présence Web vous permet de retrouver un nom de domaine parmi
1 800 000 noms diponibles de par le monde. L'interface est en français
et le moteur est rapide.
16.30 - QuiQuoiOu
Page de requête
16.31 - Savvy Search
16.32 - Starting Point
16.33 - Swiss Search
s
16.34 - UCSTRI
16.35 - URoulette
16.36 - WebCrawler
16.37 - WhoWhere?
16.38 - YAHOO
16.39 - YAHOO France
16.40 - Yellow Web