Página da Web

Os ajustes de página da web permitem personalizar como as páginas da web são transferidas, analisadas e modificadas.

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Codificação do texto

Use esse controle para especificar a codificação de texto para páginas da Web. O SiteSucker vai ler e salvar todas as páginas da Web usando a codificação de texto especificada. Se estiver configurado para Padrão, o SiteSucker vai tentar detectar a codificação de texto da página da Web. Essa configuração é ignorada ao ler ou salvar páginas da web que já foram transferidas anteriormente.


Transferir usando visualizações da web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização da web oculta e então extrair o HTML da visualização da web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização da web.

Criar PDF

Marque esta caixa para que o SiteSucker baixe um site como um documento PDF. Cada página da web é renderizada como uma única página no documento, e a largura e a altura mínima de cada página PDF são determinadas pela ajuste Tamanho da visualização da web. A ordem das páginas no documento será um tanto aleatória devido à natureza não linear dos sites. Os links da Internet são preservados no documento e os links para as páginas baixadas são modificados para que o usuário seja enviado ao local apropriado no documento. Apenas páginas da web e outros arquivos que podem ser exibidos em um navegador da web são incluídos no documento. Este controle só é habilitado se a ajuste Transferir usando visualizações da web estiver ativada. Quando esta ajuste está ativada, outras ajustes que não se aplicam são ignoradas.

Intervalo ao salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização da web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações da web estiver ativado.

Tamanho da visualização da web

Use este controle para especificar o tamanho das visualizações da web ocultas. A largura da visualização da web pode afetar a aparência de páginas da web baixadas e documentos PDF criados pelo SiteSucker. A altura da visualização da web determina a altura mínima da página ao criar documentos PDF. Este controle só é habilitado se a ajuste Transferir usando visualizações da web estiver ativada.


Atributos

Os ajustes dessa aba permite que você especifique atributos de dados personalizados que o SiteSucker deve analisar em URLs. Introduzido no HTML5, os dados personalizados de atributos armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Dados para atribuir nomes começam com data- e não contêm caracteres maiúsculos.

Atributos de Dados Personalizados

Para adicionar um atributo de dados personalizados, clique no botão Mais, digite o nome do atributo, e pressione ↩.

Para remover um atributo de dados personalizados, selecione-o na tabela clique no botão Menos.

Para modificar um atributo de dados personalizados, dê dois cliques sobre o nome na tabela, digite o novo nome, e pressione ↩. Todos os nomes da tabela devem ser exclusivos.


Padrões

As configurações nesta guia permitem que você faça o seguinte:

  • Especifique expressões regulares que modificam arquivos HTML para que as páginas da Web baixadas sejam exibidas e se comportem corretamente.
  • Extraia e baixe URLs incorporados em JavaScript ou HTML fora do padrão que o SiteSucker ignoraria.
  • Detecte problemas com arquivos HTML baixados que exigem que o arquivo seja baixado novamente.
Padrões

Para substituir textos em arquivos HTML, defina a ação como Substituir mais cedo ou Substituir mais tarde e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, deixe o modelo em branco.

Para extrair URLs de texto HTML, defina a ação como Extrair URL e insira um padrão de pesquisa e um modelo de URL para o URL que você deseja extrair. Se for encontrado um texto que corresponda ao padrão de pesquisa, o SiteSucker tentará baixar o URL especificado pelo modelo de URL. O modelo de URL será ignorado se resultar em uma URL em branco ou uma URL idêntica ao modelo.

Para tentar baixar novamente um arquivo HTML se um padrão for encontrado no texto HTML, defina a ação como Tentar novamente se for encontrado e insira um padrão de pesquisa. Se for encontrado um texto que corresponda ao padrão de pesquisa, o SiteSucker tentará baixar o arquivo HTML novamente. Para tentar baixar novamente um arquivo HTML se um padrão não for encontrado no texto HTML, defina a ação como Tentar novamente se ausente e insira um padrão de pesquisa. Se o texto correspondente ao padrão de pesquisa não for encontrado no arquivo, o SiteSucker tentará baixar o arquivo HTML novamente. Se o SiteSucker tiver esgotado o número de tentativas especificado nas configurações de Solicitação, o arquivo HTML será excluído e um erro 259 (arquivo corrompido) será registrado. O valor do modelo é ignorado para essas ações.

As ações Extrair URL e Substituir mais cedo são aplicadas após a execução de qualquer script de pré-análise, mas antes da varredura do SiteSucker o arquivo HTML para URLs. As ações Tentar novamente se for encontrado e Tentar novamente se ausente ocorrem logo antes das ações Extrair URL e Substituir mais cedo serem aplicadas. A ação Substituir mais tarde ocorre depois que o arquivo HTML é localizado. As ações são aplicadas na ordem em que aparecem na tabela, e a ordem das ações pode ser reorganizada arrastando-as na tabela. A sintaxe padrão atualmente suportada é aquela especificada por ICU, que é descrita em Expressões Regulares - Documentação da ICU.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair uma URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a sequência de consulta.

Para adicionar uma linha na tabela, clique no botão Mais, defina o Ação, insira o Padrão de Busca e Modelo e pressione ↩.

Para remover linhas da tabela, selecione-as na tabela e clique no botão Menos.

Para modificar uma linha, dê dois cliques na sequência na tabela, digite uma sequência, e pressione ↩.


JavaScript

Os ajustes nesta aba permitem que você injete JavaScript em visualizações da web ocultas depois que a página termina de carregar, mas antes que outros sub-recursos terminem de carregar. Essa caixa de texto será ativada apenas se o ajuste Transferir usando visualizações da web estiver ativado.

JavaScript

Este recurso pode ser usado para realizar qualquer número de tarefas antes que o SiteSucker salve uma página da web. Por exemplo, pode ser usado para clicar em botões que modificam uma página da web antes que o SiteSucker a salve; clicar nos links que transferem os anexos; extrair URLs obscuras de uma página da web; ou renomear arquivos.

Na imagem mostrada acima, o script chama moreImagesFunction() depois que a janela é carregada e o chama novamente sempre que ocorrerem alterações na página da web. Quando moreImagesFunction() é chamado, o elemento com o ID de “tendência” é clicado e uma mensagem é enviada de volta ao SiteSucker solicitando um atraso de cinco segundos antes de salvar a página da web. Este JavaScript torna possível carregar todas as imagens em uma página da web em particular antes que ela seja salva.

O SiteSucker fornece vários manipuladores de mensagens que podem ser usados para passar informações do JavaScript de volta para o aplicativo. Para chamar um manipulador de mensagens em JavaScript, inclua a função window.webkit.messageHandlers.<nome da mensagem>.postMessage(<argumento>) em seu código. Os nomes das mensagens reconhecidas pelo SiteSucker, seu uso e seus argumentos são discutidos na tabela abaixo.

Nome da Mensagem Descrição
delay Permite adicionar um atraso antes de salvar uma página da web. O argumento da função deve ser um número inteiro ou de ponto flutuante que especifica o atraso em segundos. Essencialmente, esta função redefine o ajuste Intervalo ao salvar para o valor passado para a função sem modificar o ajuste no documento SiteSucker.
log Permite que você escreva uma mensagem no arquivo de registro do SiteSucker. O argumento da função deve ser uma string. Esta função pode ser útil ao depurar seu JavaScript.
rename Permite renomear arquivos. O argumento da função deve ser uma matriz contendo duas strings: um padrão de pesquisa seguido por um modelo de substituição. Essas strings são adicionadas temporariamente à tabela Substituir nos ajustes de Caminho e são removidas depois que a transferência do documento é interrompida. Você pode usar esse recurso para renomear arquivos com o conteúdo de texto de um botão ou âncora.
save
saveLast
Permite que você salve o conteúdo atual da visualização da web. Algumas páginas da web, como aquelas que contêm tabelas ou galerias de imagens, são atualizadas usando JavaScript ou outros meios quando um elemento é clicado, mas não alteram a URL da página. Você pode usar o manipulador de mensagens save para salvar o conteúdo da visualização da web, atualizar a página usando JavaScript, salvar o conteúdo novamente e assim por diante até chamar a mensagem do manipulador saveLast. O argumento da função deve ser uma string contendo um nome exclusivo para a página da web. Esses arquivos são salvos independentemente do ajuste de Número máximo de níveis. Um procedimento para usar esse recurso é descrito abaixo desta tabela.
url Permite que você passe uma URL de volta para o SiteSucker. O argumento da função deve ser uma string que especifica uma URL absoluta ou relativa. O SiteSucker tentará fazer a transferência da URL sem localizar a URL na página da web. Se quiser localizar a URL, você terá que fazer isso sozinho usando JavaScript ou o ajuste Padrões.

A seguir está um exemplo do código JavaScript, com comentários, usado para salvar uma série de páginas de uma única visualização da web:

Depois que a última página for salva, o SiteSucker analisará todas as páginas salvas.