Exclusions de robot

A priori, SiteSucker respecte les exclusions de robots.txt, les balises META Robots et les lignes d'en-tête HTTP X-Robots-Tag.

Le fichier robots.txt permet aux gestionnaires de site Web de définir quelles parties d'un site sont à ignorer par des robots tels que SiteSucker. Les gestionnaires Web peuvent désactiver l'accès aux répertoires privés et temporaires, par exemple, parce qu'ils ne désirent pas que les pages de ces zones soient ramenées.

Le fichier robots.txt peut comprendre des URL vers les cartes de site, que SiteSucker va ramener sauf si l'option Supprimer robots.txt est activée dans les Préférences. Bien que les cartes de site reprennent des URL pour un site, SiteSucker ne peut pas analyser les cartes de site pour ces URL.

SiteSucker respecte aussi la directive Crawl-delay dans robots.txt. Ce paramètre spécifie le nombre de secondes à attendre entre des requêtes successives vers le même serveur. Si cet élément se trouve dans le fichier robots.txt, SiteSucker va attendre entre les requêtes.

De plus, SiteSucker respecte les balises META Robots et les lignes d'en-tête HTML X-Robots-Tag, qui peuvent être utilisées pour spécifier que les liens dans une page ne doivent pas être suivis par les robots.

Pour la plupart, ce comportement peut être modifié avec l'option Ignorer les exclusions de robot dans les paramètres Général. Cependant, les directives robots.txt destinées spécifiquement à SiteSucker sont toujours respectées.

Attention : Ignorer les exclusions de robot n'est pas recommandé. Les exclusions de robot sont généralement mises en place pour de bonnes raisons et méritent d'être respectées.