Exclusões de Robô
Por padrão, o SiteSucker honra exclusões de robots.txt, a tag META de Robôs e no cabeçalho HTTP X-Robots-Tag.
O arquivo robots.txt (transferidos como robots.ssl.txt quando https é usado) permite que os administradores do site definam que partes de um site estão fora dos limites para robôs como o SiteSucker. Os administradores do site podem não permitir o acesso aos diretórios particulares e temporários, por exemplo, porque eles não querem que páginas nessas áreas sejam transferidas.
O arquivo robots.txt pode incluir URLs para mapas de site, que o SiteSucker fará a transferência, a menos que a opção Apagar robots.txt esteja habilitada nas Preferências. Embora os mapas de site incluam URLs para um site, o SiteSucker não pode verificar mapas de site em busca dessas URLs.
O SiteSucker também honra a diretiva Crawl-delay (retardo de rastreamento) em robots.txt. Este parâmetro especifica o número de segundos de espera entre os pedidos sucessivos para o mesmo servidor. Se esse elemento é encontrado no arquivo robots.txt, o SiteSucker vai atrasar entre os pedidos.
Além disso, o SiteSucker honra a tag Robots META e o cabeçalho HTTP X-Robots-Tag, que pode ser usado para solicitar que links em páginas específicas não sejam seguidos por robôs.
Para a maior parte, este comportamento pode ser alterado com a opção Ignorar exclusões de robôs em ajustes Geral. No entanto, as diretivas robots.txt destinadas especificamente ao SiteSucker são sempre honradas.
Aviso: Ignorar exclusões de robôs não é recomendado. Exclusões de robô geralmente são colocados no lugar por um bom motivo e deve ser obedecida.