Exclusões de Robô

Por padrão, o SiteSucker honra exclusões de robots.txt, a tag META de Robôs e no cabeçalho HTTP X-Robots-Tag.

O arquivo robots.txt permite que os administradores do site definam que partes de um site estão fora dos limites para robôs como o SiteSucker. Os administradores do site podem não permitir o acesso aos diretórios particulares e temporários, por exemplo, porque eles não querem que páginas nessas áreas sejam transferidas.

Além disso, a tag META de Robôs e no cabeçalho HTTP X-Robots-Tag pode ser usada para solicitar que os links em páginas específicas não sejam seguidos pelos robôs.

O SiteSucker também honra a diretiva Crawl-delay (retardo de rastreamento) em robots.txt. Este parâmetro especifica o número de segundos de espera entre os pedidos sucessivos para o mesmo servidor. Se esse elemento é encontrado no arquivo robots.txt, o SiteSucker vai atrasar entre os pedidos.

Para a maior parte, este comportamento pode ser alterado com a opção Ignorar Exclusões de Robô em Ajustes Geral. No entanto, as diretivas robots.txt destinadas especificamente ao SiteSucker são sempre honradas.

Aviso: Ignorar exclusões de robôs não é recomendado. Exclusões de robô geralmente são colocados no lugar por um bom motivo e deve ser obedecida.