Página da Web
Os ajustes de página da web permitem personalizar como as páginas da web são transferidas, analisadas e modificadas.

A seção Página da web do diálogo Ajustes fornece os seguintes controles:
Transferir usando visualizações da web
Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização da web oculta e então extrair o HTML da visualização da web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização da web.
Intervalo ao salvar
Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização da web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações da web estiver ativado.
Codificação do texto
Use este controle para especificar a codificação de texto para páginas da web. O SiteSucker vai ler e salvar todas as páginas da web usando a codificação de texto especificada. Se definiu como Padrão, o SiteSucker tentará detectar a codificação de texto da página da web. Esse ajuste é ignorado ao ler ou salvar páginas da web que foram transferidas anteriormente.
Atributos de dados personalizados
Use a tela Atributos de dados personalizados para especificar atributos de dados personalizados que o SiteSucker deve procurar por URLs. Introduzido no HTML5, os atributos de dados personalizados armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Os nomes dos atributos de dados começam com data-
e não contêm caracteres maiúsculos.

Se você tocar no botão Editar na tela Atributos de dados personalizados, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:
![]() |
Apagar |
Apaga os atributos de dados personalizados selecionados.
![]() |
Editar |
Permite editar o atributo de dados personalizados selecionado.
![]() |
Adicionar |
Permite adicionar um novo atributo de dados personalizado.
Padrões
Use a tela Padrões para especificar expressões regulares para substituir o texto em arquivos HTML ou extrair URLs do texto HTML.

Para substituir textos em arquivos HTML, defina Tipo de Modelo para Substituição antecipada ou Substituição tardia e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0
representando o texto correspondido, $1
representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, insira um modelo em branco.
Para extrair URLs do texto HTML, defina o Tipo de Modelo para Extração de URL, insira um padrão de pesquisa e um modelo de URL que especifica a URL que o SiteSucker deve transferir. O modelo de URL será ignorado se resultar em uma URL em branco ou uma URL idêntica ao modelo.
Os padrões de busca Extração de URL e Substituição antecipada são aplicados antes que o SiteSucker verifique os arquivos HTML em busca de URLs. O padrões de busca Substituição tardia é aplicado depois que os arquivos HTML são localizados. Os padrões de busca são aplicados na ordem em que aparecem na lista e a ordem dos padrões de busca pode ser reorganizada arrastando-os na lista durante a edição. A sintaxe padrão atualmente suportada é a especificada pela ICU, descrita em Regular Expressions - ICU Documentation.
Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:
-
extrair uma URL do primeiro argumento da função
javascript:openWin()
e então - substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a sequência de consulta.
Se você tocar no botão Editar na tela Padrões, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:
![]() |
Apagar |
Exclui os padrões selecionados.
![]() |
Editar |
Permite editar o padrão selecionado.
![]() |
Adicionar |
Permite adicionar um novo padrão.