Exclusões de Robô

Por padrão, o SiteSucker honra exclusões de robots.txt, a tag META de Robôs e no cabeçalho HTTP X-Robots-Tag.

O arquivo robots.txt permite que os administradores do site definam que partes de um site estão fora dos limites para robôs como o SiteSucker. Os administradores do site podem não permitir o acesso aos diretórios particulares e temporários, por exemplo, porque eles não querem que páginas nessas áreas sejam transferidas.

O arquivo robots.txt pode incluir URLs para mapas de site, que o SiteSucker fará a transferência. Embora os sitemaps incluam URLs para um site, o SiteSucker não pode verificar mapas de site em busca dessas URLs.

O SiteSucker também honra a diretiva Crawl-delay (retardo de rastreamento) em robots.txt. Este parâmetro especifica o número de segundos de espera entre os pedidos sucessivos para o mesmo servidor. Se esse elemento é encontrado no arquivo robots.txt, o SiteSucker vai atrasar entre os pedidos.

Além disso, o SiteSucker honra a tag Robots META e o cabeçalho HTTP X-Robots-Tag, que pode ser usado para solicitar que links em páginas específicas não sejam seguidos por robôs.

Para a maior parte, este comportamento pode ser alterado com a opção Ignorar Exclusões de Robô em ajustes Geral. No entanto, as diretivas robots.txt destinadas especificamente ao SiteSucker são sempre honradas.

Aviso: Ignorar exclusões de robôs não é recomendado. Exclusões de robô geralmente são colocados no lugar por um bom motivo e deve ser obedecida.