Exclusions de robot

A priori, SiteSucker respecte les exclusions de robots.txt, les balises META Robots et les lignes d'en-tête HTTP X-Robots-Tag.

Le fichier robots.txt permet aux gestionnaires de site Web de définir quelles parties d'un site sont à ignorer par des robots tels que SiteSucker. Les gestionnaires Web peuvent désactiver l'accès aux répertoires privés et temporaires, par exemple, parce qu'ils ne désirent pas que les pages de ces zones soient ramenées.

De plus, les balises META Robots et les lignes d'en-tête HTML X-Robots-Tag peuvent être utilisés pour spécifier que les liens dans une page ne doivent pas être suivis par les robots.

SiteSucker respecte aussi la directive Crawl-delay dans robots.txt. Ce paramètre spécifie le nombre de secondes à attendre entre des requêtes successives vers le même serveur. Si cet élément se trouve dans le fichier robots.txt, SiteSucker va attendre entre les requêtes.

Pour la plupart, ce comportement peut être modifié avec l'option Ignorer les exclusions de robot dans les paramètres Général. Cependant, les directives robots.txt destinées spécifiquement à SiteSucker sont toujours respectées.

Attention : Ignorer les exclusions de robot n'est pas recommandé. Les exclusions de robot sont généralement mises en place pour de bonnes raisons et méritent d'être respectées.