Exclusões de Robô
Por padrão, o SiteSucker honra exclusões de robots.txt, a tag META de Robôs e no cabeçalho HTTP X-Robots-Tag.
O arquivo robots.txt permite que os administradores do site definam que partes de um site estão fora dos limites para robôs como o SiteSucker. Os administradores do site podem não permitir o acesso aos diretórios particulares e temporários, por exemplo, porque eles não querem que páginas nessas áreas sejam transferidas.
O arquivo robots.txt pode incluir URLs para sitemaps, que o SiteSucker baixará a menos que a opção Apagar robots.txt esteja ativada nos ajustes Geral. Os sitemaps permitem que os mecanismos de busca rastreiem um site com mais eficiência e encontrem URLs que podem estar isolados do restante do conteúdo do site. Você pode configurar o SiteSucker para verificar os sitemaps em busca de URLs ativando a opção Analisar sitemaps em busca de URLs nos ajustes URL.
O SiteSucker também honra a diretiva Crawl-delay (retardo de rastreamento) em robots.txt. Este parâmetro especifica o número de segundos de espera entre os pedidos sucessivos para o mesmo servidor. Se esse elemento é encontrado no arquivo robots.txt, o SiteSucker vai atrasar entre os pedidos.
Além disso, o SiteSucker honra a tag Robots META e o cabeçalho HTTP X-Robots-Tag, que pode ser usado para solicitar que links em páginas específicas não sejam seguidos por robôs.
Para a maior parte, este comportamento pode ser alterado com a opção Ignorar exclusões de robôs em ajustes Geral. No entanto, as diretivas robots.txt destinadas especificamente ao SiteSucker são sempre honradas.
Aviso: Ignorar exclusões de robôs não é recomendado. Exclusões de robô geralmente são colocados no lugar por um bom motivo e deve ser obedecida.
