Página da Web

Os ajustes de página da web permitem personalizar como as páginas da web são transferidas, analisadas e modificadas.

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Transferir usando visualizações da web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização da web oculta e então extrair o HTML da visualização da web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização da web.

Intervalo ao salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização da web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações da web estiver ativado.


Codificação do texto

Use este controle para especificar a codificação de texto para páginas da web. O SiteSucker vai ler e salvar todas as páginas da web usando a codificação de texto especificada. Se definiu como Padrão, o SiteSucker tentará detectar a codificação de texto da página da web. Esse ajuste é ignorado ao ler ou salvar páginas da web que foram transferidas anteriormente.


Atributos de dados personalizados

Use a tela Atributos de dados personalizados para especificar atributos de dados personalizados que o SiteSucker deve procurar por URLs. Introduzido no HTML5, os atributos de dados personalizados armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Os nomes dos atributos de dados começam com data- e não contêm caracteres maiúsculos.

Atributos de dados personalizados

Se você tocar no botão Editar na tela Atributos de dados personalizados, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:

Apagar Apagar

Apaga os atributos de dados personalizados selecionados.

Editar Editar

Permite editar o atributo de dados personalizados selecionado.

Adicionar Adicionar

Permite adicionar um novo atributo de dados personalizado.


Padrões

Você pode usar a tela Padrões para fazer o seguinte:

  • Especifique expressões regulares que modificam arquivos HTML para que as páginas da Web transferidas sejam exibidas e se comportem corretamente.
  • Extraia e baixe URLs incorporados em JavaScript ou HTML fora do padrão que o SiteSucker ignoraria.
  • Inclua ou exclua URLs extraindo-as do texto HTML.
  • Detecte problemas com arquivos HTML transferidos que exigem que o arquivo seja transferido novamente.
Padrões

Para substituir textos em arquivos HTML, defina a ação como Substituir mais cedo ou Substituir mais tarde e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, insira um modelo em branco.

Para extrair um URL de um texto HTML, defina a ação como Extrair URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de extrair. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então tenta transferir o URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL que seja idêntica ao modelo. O SiteSucker também ignora o URL extraído se ele não for permitido pelos outros ajustes.

Para incluir um URL extraído de texto HTML, defina a ação como Incluir URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de incluir. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então a adiciona a quaisquer outros URLs da tabela Incluir nos ajustes de URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL idêntico ao modelo. Esta ação não altera os ajustes de URL exibidos no aplicativo.

Para excluir um URL extraído de texto HTML, defina a ação como Excluir URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de excluir. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então a adiciona a quaisquer outros URLs da tabela Excluir nos ajustes de URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL idêntico ao modelo. Esta ação não altera os ajustes de URL exibidos no aplicativo.

Para tentar transferir novamente um arquivo HTML se um padrão for encontrado no texto HTML, defina a ação como Tentar novamente se for encontrado e insira um padrão de pesquisa. Se for encontrado um texto que corresponda ao padrão de pesquisa, o SiteSucker tentará transferir o arquivo HTML novamente. Para tentar transferir novamente um arquivo HTML se um padrão não for encontrado no texto HTML, defina a ação como Tentar novamente se ausente e insira um padrão de pesquisa. Se o texto correspondente ao padrão de pesquisa não for encontrado no arquivo, o SiteSucker tentará transferir o arquivo HTML novamente. Se o SiteSucker tiver esgotado o número de tentativas especificado nos ajustes de Solicitação, o arquivo HTML será apagado e um erro 259 (arquivo corrompido) será registrado. O valor do modelo é ignorado para essas ações.

As ações Tentar novamente se encontrado e Tentar novamente se estiver faltando são aplicadas após qualquer script de pré-análise ser executado. As ações Extrair URL, Incluir URL, Excluir URL e Substituir anteriores são aplicadas após as ações Tentar novamente se encontrado e Tentar novamente se estiver faltando serem aplicadas, mas antes que o SiteSucker verifique o arquivo HTML em busca de URLs. A ação Substituir recentes é aplicada após o arquivo HTML ser localizado. Caso contrário, as ações são aplicadas na ordem em que aparecem na tabela, e a ordem das ações pode ser reorganizada arrastando-as na tabela. A sintaxe padrão atualmente suportada é a especificada pelo ICU, que é descrita em Regular Expressions | ICU Documentation.

Por exemplo, na imagem mostrada acima (onde a primeira linha é o padrão de pesquisa, a segunda linha é o modelo e a terceira linha é a ação), o SiteSucker é instruído a fazer o seguinte:

  1. extrair um URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com o mesmo URL sem a sequência de consulta.

Se você tocar no botão Editar na tela Padrões, o SiteSucker vai exibir uma barra de ferramentas com os seguintes botões:

Apagar Apagar

Exclui os padrões selecionados.

Editar Editar

Permite editar o padrão selecionado.

Adicionar Adicionar

Permite adicionar um novo padrão.