Re: htdig: indexing pages without links


heddy Boubaker (boubaker@cenatls.cena.dgac.fr)
30 Sep 1998 17:58:06 +0200


 <> "Jerome" == Jerome ALET <alet@unice.fr> writes:

Jerome> excuse my poor english.
 
 Pas de problème, le mien est aussi très poor
 
Jerome> now it works fine but I've got an NT Server with IIS and I want to index
Jerome> it all from my SparcLinux box.

Jerome> I do a smbmount to mount the web directories in my SparcLinux, hoping
Jerome> this will be quicker than via http.

Jerome> I want to index these directories even if there are no links from pages
Jerome> to pages.
 
 htdig n'utilise que des requêtes http pour accéder aux pages a indexer, ça
 veut dire que:
 
 1/ quelque soit l'emplacement des pages html ça ne changera rien pour htdig
 qui fera toujours ses requêtes au serveur (ça peut changer effectivement les
 perfs mais au niveau du serveur, rien a voir avec htdig)
 
 2/ Si tes pages ne sont référencées a partir de nulle part htdig ne les
 trouvera pas ! Seule solution créer des liens !
 
 Ce que fait htdig est: a partir des urls 'start_urls' il fait des requêtes
 http et récupère les pages, les parse, en extrait les mots clefs mais aussi
 les liens, puis suis ces liens et continue jusqu'à ce qu'il n'y ait plus rien
 a suivre (en gros il construit dynamiquement une sorte de gros graphe des
 pages, mais en virant des branches en fonction des 'exclude_urls' etc ).

 bonne chance
 
 a+
 

-- 

- heddy - ---------------------------------------------------------------------- To unsubscribe from the htdig mailing list, send a message to htdig-request@sdsu.edu containing the single word "unsubscribe" in the body of the message.



This archive was generated by hypermail 2.0b3 on Sat Jan 02 1999 - 16:27:54 PST