Página da Web

Os ajustes de página da web permitem personalizar como as páginas da web são transferidas, analisadas e modificadas.

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Transferir usando visualizações da web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização da web oculta e então extrair o HTML da visualização da web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização da web.

Intervalo ao salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização da web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações da web estiver ativado.


Codificação do texto

Use este controle para especificar a codificação de texto para páginas da web. O SiteSucker vai ler e salvar todas as páginas da web usando a codificação de texto especificada. Se definiu como Padrão, o SiteSucker tentará detectar a codificação de texto da página da web. Esse ajuste é ignorado ao ler ou salvar páginas da web que foram transferidas anteriormente.


Atributos de dados personalizados

Use a tela Atributos de dados personalizados para especificar atributos de dados personalizados que o SiteSucker deve procurar por URLs. Introduzido no HTML5, os atributos de dados personalizados armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Os nomes dos atributos de dados começam com data- e não contêm caracteres maiúsculos.

Atributos de dados personalizados

Se você tocar no botão Editar na tela Atributos de dados personalizados, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:

Apagar Apagar

Apaga os atributos de dados personalizados selecionados.

Editar Editar

Permite editar o atributo de dados personalizados selecionado.

Adicionar Adicionar

Permite adicionar um novo atributo de dados personalizado.


Padrões

Use a tela Padrões para especificar expressões regulares para substituir o texto em arquivos HTML ou extrair URLs do texto HTML.

Padrões

Para substituir textos em arquivos HTML, defina Tipo de Modelo para Substituição antecipada ou Substituição tardia e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, insira um modelo em branco.

Para extrair URLs do texto HTML, defina o Tipo de Modelo para Extração de URL, insira um padrão de pesquisa e um modelo de URL que especifica a URL que o SiteSucker deve transferir. O modelo de URL será ignorado se resultar em uma URL em branco ou uma URL idêntica ao modelo.

Os padrões de busca Extração de URL e Substituição antecipada são aplicados antes que o SiteSucker verifique os arquivos HTML em busca de URLs. O padrões de busca Substituição tardia é aplicado depois que os arquivos HTML são localizados. Os padrões de busca são aplicados na ordem em que aparecem na lista e a ordem dos padrões de busca pode ser reorganizada arrastando-os na lista durante a edição. A sintaxe padrão atualmente suportada é a especificada pela ICU, descrita em Regular Expressions - ICU Documentation.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair uma URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a sequência de consulta.

Se você tocar no botão Editar na tela Padrões, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:

Apagar Apagar

Exclui os padrões selecionados.

Editar Editar

Permite editar o padrão selecionado.

Adicionar Adicionar

Permite adicionar um novo padrão.