Página da Web

Os ajustes de página da web permitem personalizar como as páginas da web são transferidas, analisadas e modificadas.

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Codificação do texto

Use esse controle para especificar a codificação de texto para páginas da Web. O SiteSucker vai ler e salvar todas as páginas da Web usando a codificação de texto especificada. Se estiver configurado para Padrão, o SiteSucker vai tentar detectar a codificação de texto da página da Web. Essa configuração é ignorada ao ler ou salvar páginas da web que já foram transferidas anteriormente.


Transferir usando visualizações da web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização da web oculta e então extrair o HTML da visualização da web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização da web.

Criar PDF

Marque esta caixa para que o SiteSucker transfira um site como um documento PDF. Cada página da web é renderizada como uma única página no documento, e a largura e a altura mínima de cada página PDF são determinadas pela ajuste Tamanho da visualização da web. A ordem das páginas no documento será um tanto aleatória devido à natureza não linear dos sites. Os links da Internet são preservados no documento e os links para as páginas transferidas são modificadas para que o usuário seja enviado ao local apropriado no documento. Apenas páginas da web e outros arquivos que podem ser exibidos em um navegador da web são incluídos no documento. Este controle só é habilitado se a ajuste Transferir usando visualizações da web estiver ativada. Quando esta ajuste está ativada, outras ajustes que não se aplicam são ignoradas.

Intervalo ao salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização da web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações da web estiver ativado.

Tamanho da visualização da web

Use este controle para especificar o tamanho das visualizações da web ocultas. A largura da visualização da web pode afetar a aparência de páginas da web transferidas e documentos PDF criados pelo SiteSucker. A altura da visualização da web determina a altura mínima da página ao criar documentos PDF. Este controle só é habilitado se a ajuste Transferir usando visualizações da web estiver ativada.


Atributos

Os ajustes dessa aba permite que você especifique atributos de dados personalizados que o SiteSucker deve analisar em URLs. Introduzido no HTML5, os dados personalizados de atributos armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Dados para atribuir nomes começam com data- e não contêm caracteres maiúsculos.

Atributos de Dados Personalizados

Para adicionar um atributo de dados personalizados, clique no botão Mais, digite o nome do atributo, e pressione ↩.

Para remover um atributo de dados personalizados, selecione-o na tabela clique no botão Menos.

Para modificar um atributo de dados personalizados, dê dois cliques sobre o nome na tabela, digite o novo nome, e pressione ↩. Todos os nomes da tabela devem ser exclusivos.


Padrões

As configurações nesta aba permitem que você faça o seguinte:

  • Especifique expressões regulares que modificam arquivos HTML para que as páginas da Web transferidas sejam exibidas e se comportem corretamente.
  • Extraia e transfira URLs incorporados em JavaScript ou HTML fora do padrão que o SiteSucker ignoraria.
  • Inclua ou exclua URLs extraindo-as do texto HTML.
  • Detecte problemas com arquivos HTML transferidos que exigem que o arquivo seja transferido novamente.
Padrões

Para substituir textos em arquivos HTML, defina a ação como Substituir mais cedo ou Substituir mais tarde e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, deixe o modelo em branco.

Para extrair um URL de um texto HTML, defina a ação como Extrair URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de extrair. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então tenta transferir o URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL que seja idêntica ao modelo. O SiteSucker também ignora o URL extraído se ele não for permitido pelos outros ajustes.

Para incluir um URL extraído de texto HTML, defina a ação como Incluir URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de incluir. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então a adiciona a quaisquer outros URLs da tabela Incluir nos ajustes de URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL idêntico ao modelo. Esta ação não altera os ajustes de URL exibidos no aplicativo.

Para excluir um URL extraído de texto HTML, defina a ação como Excluir URL e insira um padrão de busca e um modelo de URL para o URL que você gostaria de excluir. Se for encontrado um texto que corresponda ao padrão de busca, o SiteSucker extrai o URL especificado pelo modelo de URL, converte-o em um URL absoluto, se necessário, e então a adiciona a quaisquer outros URLs da tabela Excluir nos ajustes de URL. O URL extraído é ignorado se a ação produz um URL em branco ou um URL idêntico ao modelo. Esta ação não altera os ajustes de URL exibidos no aplicativo.

Para tentar transferir novamente um arquivo HTML se um padrão for encontrado no texto HTML, defina a ação como Tentar novamente se for encontrado e insira um padrão de pesquisa. Se for encontrado um texto que corresponda ao padrão de pesquisa, o SiteSucker tentará transferir o arquivo HTML novamente. Para tentar transferir novamente um arquivo HTML se um padrão não for encontrado no texto HTML, defina a ação como Tentar novamente se ausente e insira um padrão de pesquisa. Se o texto correspondente ao padrão de pesquisa não for encontrado no arquivo, o SiteSucker tentará transferir o arquivo HTML novamente. Se o SiteSucker tiver esgotado o número de tentativas especificado nos ajustes de Solicitação, o arquivo HTML será apagado e um erro 259 (arquivo corrompido) será registrado. O valor do modelo é ignorado para essas ações.

As ações Tentar novamente se encontrado e Tentar novamente se estiver faltando são aplicadas após qualquer script de pré-análise ser executado. As ações Extrair URL, Incluir URL, Excluir URL e Substituir anteriores são aplicadas após as ações Tentar novamente se encontrado e Tentar novamente se estiver faltando serem aplicadas, mas antes que o SiteSucker verifique o arquivo HTML em busca de URLs. A ação Substituir recentes é aplicada após o arquivo HTML ser localizado. Caso contrário, as ações são aplicadas na ordem em que aparecem na tabela, e a ordem das ações pode ser reorganizada arrastando-as na tabela. A sintaxe padrão atualmente suportada é a especificada pelo ICU, que é descrita em Regular Expressions | ICU Documentation.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair um URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com o mesmo URL sem a sequência de consulta.

Para adicionar uma linha na tabela, clique no botão Mais, defina o Ação, insira o Padrão de Busca e Modelo e pressione ↩.

Para remover linhas da tabela, selecione-as na tabela e clique no botão Menos.

Para modificar uma linha, dê dois cliques na sequência na tabela, digite uma sequência, e pressione ↩.


JavaScript

Os ajustes nesta aba permitem que você injete JavaScript em visualizações da web ocultas depois que a página termina de carregar, mas antes que outros sub-recursos terminem de carregar. Essa caixa de texto será ativada apenas se o ajuste Transferir usando visualizações da web estiver ativado.

JavaScript

Este recurso pode ser usado para realizar qualquer número de tarefas antes que o SiteSucker salve uma página da web. Por exemplo, pode ser usado para clicar em botões que modificam uma página da web antes que o SiteSucker a salve; clicar nos links que transferem os anexos; extrair URLs obscuras de uma página da web; ou renomear arquivos.

Na imagem mostrada acima, o script chama moreImagesFunction() depois que a janela é carregada e o chama novamente sempre que ocorrerem alterações na página da web. Quando moreImagesFunction() é chamado, o elemento com o ID de “tendência” é clicado e uma mensagem é enviada de volta ao SiteSucker solicitando um atraso de cinco segundos antes de salvar a página da web. Este JavaScript torna possível carregar todas as imagens em uma página da web em particular antes que ela seja salva.

O SiteSucker fornece vários manipuladores de mensagens que podem ser usados para passar informações do JavaScript de volta para o aplicativo. Para chamar um manipulador de mensagens em JavaScript, inclua a função window.webkit.messageHandlers.<nome da mensagem>.postMessage(<argumento>) em seu código. Os nomes das mensagens reconhecidas pelo SiteSucker, seu uso e seus argumentos são discutidos na tabela abaixo.

Nome da Mensagem Descrição
delay Permite adicionar um atraso antes de salvar uma página da web. O argumento da função deve ser um número inteiro ou de ponto flutuante que especifica o atraso em segundos. Essencialmente, esta função redefine o ajuste Intervalo ao salvar para o valor passado para a função sem modificar o ajuste no documento SiteSucker.
log Permite que você escreva uma mensagem no arquivo de registro do SiteSucker. O argumento da função deve ser uma string. Esta função pode ser útil ao depurar seu JavaScript.
rename Permite renomear arquivos. O argumento da função deve ser uma matriz contendo duas strings: um padrão de pesquisa seguido por um modelo de substituição. Essas strings são adicionadas temporariamente à tabela Substituir nos ajustes de Caminho e são removidas depois que a transferência do documento é interrompida. Você pode usar esse recurso para renomear arquivos com o conteúdo de texto de um botão ou âncora.
save
saveLast
Permite que você salve o conteúdo atual da visualização da web. Algumas páginas da web, como aquelas que contêm tabelas ou galerias de imagens, são atualizadas usando JavaScript ou outros meios quando um elemento é clicado, mas não alteram o URL da página. Você pode usar o manipulador de mensagens save para salvar o conteúdo da visualização da web, atualizar a página usando JavaScript, salvar o conteúdo novamente e assim por diante até chamar a mensagem do manipulador saveLast. O argumento da função deve ser uma string contendo um nome exclusivo para a página da web. Esses arquivos são salvos independentemente do ajuste de Número máximo de níveis. Um procedimento para usar esse recurso é descrito abaixo desta tabela.
url Permite que você passe um URL de volta para o SiteSucker. O argumento da função deve ser uma string que especifica um URL absoluto ou relativo. O SiteSucker tentará fazer a transferência do URL sem localizar o URL na página da web. Se quiser localizar a URL, você terá que fazer isso sozinho usando JavaScript ou o ajuste Padrões.

A seguir está um exemplo do código JavaScript, com comentários, usado para salvar uma série de páginas de uma única visualização da web:

Depois que a última página for salva, o SiteSucker analisará todas as páginas salvas.