Página da Web

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Codificação do texto

Use esse controle para especificar a codificação de texto para páginas da Web. O SiteSucker vai ler e salvar todas as páginas da Web usando a codificação de texto especificada. Se estiver configurado para Padrão, o SiteSucker vai tentar detectar a codificação de texto da página da Web. Essa configuração é ignorada ao ler ou salvar páginas da web que já foram transferidas anteriormente.

Verificar todos os links

Marque esta caixa para que o SiteSucker verifique todos os links em todos os arquivos HTML transferidos — incluindo links para arquivos que você não está transferindo — e registrar quaisquer erros que ocorram. Com esta opção ativada, o SiteSucker pode relatar muitos erros que você normalmente não veria. Esta definição destina-se como uma ferramenta de depuração para web designers que querem ver se os seus próprios sites têm quaisquer links ruins.

Para minimizar o tempo que leva para verificar todos os links, defina o ajuste Filtro nos ajustes Tipo de Arquivo para Permitir tipos de arquivo específicos sem nada marcado fazendo com que apenas HTML e CSS são transferidos, e defina o ajuste Modificação de arquivo nos ajustes Geral como Apagar depois de analisar, que vai apagar arquivos HTML e CSS depois de serem transferidos e analisados.

Verificar comentários para URLs

Marque esta caixa para que o SiteSucker verifique comentários de URLs. Normalmente, o SiteSucker ignora comentários. Essa opção é útil quando as etiquetas são incluídas nos comentários para que elas possam ser usadas pelo Internet Explorer ou JavaScript.

Incluir arquivos suportados

Marque esta caixa para que o SiteSucker inclua arquivos suportados na transferência. Quando esta opção está ativada, o SiteSucker fará a transferência de arquivos que não sejam HTML (tais como folhas de estilo, imagens, etc), mesmo que não sejam permitidos pelo atual Caminho ou quando o Número máximo de níveis em Ajustes de Limites é excedido. Essa configuração é útil ao transferir sites vinculados a folhas de estilo, imagens ou outros arquivos de suporte que estão em domínios ou subdomínios separados.

Transferir usando visualizações web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização web oculta e então extrair o HTML da visualização web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização web.

Criar PDF

Marque esta caixa para que o SiteSucker baixe um site como um documento PDF. Cada página da web é renderizada como uma única página no documento, e a largura e a altura mínima de cada página PDF são determinadas pela ajuste Tamanho da visualização web. A ordem das páginas no documento será um tanto aleatória devido à natureza não linear dos sites. Os links da Internet são preservados no documento e os links para as páginas baixadas são modificados para que o usuário seja enviado ao local apropriado no documento. Apenas páginas da web e outros arquivos que podem ser exibidos em um navegador da web são incluídos no documento. Este controle só é habilitado se a ajuste Transferir usando visualizações web estiver ativada.

Quando esta ajuste está ativada, outras ajustes que não se aplicam são ignoradas. Isso inclui as seguintes ajustes:

  • Ignorar nome do arquivo nos cabeçalhos
  • Tratar URLs ambíguos como pastas
  • Sempre transferir HTML e CSS
  • Substituição de arquivo
  • Modificação de arquivo
  • Número máximo de arquivos
  • Tamanho mínimo do arquivo
  • Tamanho máximo do arquivo
  • Tamanho mínimo da imagem
  • Caminhos para substituir
  • Codificação do texto
  • Verificar todos os links
  • Verificar todos os links
  • Atributos
  • Padrões
  • Script
  • Vídeo

Intervalo ao salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir usando visualizações web estiver ativado.

Tamanho da visualização web

Use este controle para especificar o tamanho das visualizações web ocultas. A largura da visualização web pode afetar a aparência de páginas da web baixadas e documentos PDF criados pelo SiteSucker. A altura da visualização web determina a altura mínima da página ao criar documentos PDF. Este controle só é habilitado se a ajuste Transferir usando visualizações web estiver ativada.


Atributos

Os ajustes dessa aba permite que você especifique atributos de dados personalizados que o SiteSucker deve analisar em URLs. Introduzido no HTML5, os dados personalizados de atributos armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Dados para atribuir nomes começam com data- e não contêm caracteres maiúsculos.

Atributos de Dados Personalizados

Para adicionar um atributo de dados personalizados, clique no botão Mais, digite o nome do atributo, e pressione ↩.

Para remover um atributo de dados personalizados, selecione-o na tabela clique no botão Menos.

Para modificar um atributo de dados personalizados, dê dois cliques sobre o nome na tabela, digite o novo nome, e pressione ↩. Todos os nomes da tabela devem ser exclusivos.


Padrões

Os ajustes dessa aba permitem que você use expressões regulares para substituir textos em arquivos HTML ou extrair URLs de um texto HTML.

Padrões

Para substituir textos em arquivos HTML, defina Tipo de Modelo para Substituição antecipada ou Substituição tardia e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, deixe o modelo em branco.

Para extrair URLs do texto HTML, defina o Tipo de Modelo para Extração de URL, insira um padrão de pesquisa e um modelo de URL que especifica a URL que o SiteSucker deve transferir. O modelo de URL será ignorado se resultar em uma URL em branco ou uma URL idêntica ao modelo.

Os padrões de busca Extração de URL e Substituição antecipada são aplicados após a execução de qualquer script de pré-análise, mas antes que o SiteSucker verifique os arquivos HTML em busca de URLs. O padrões de busca Substituição tardia é aplicado depois que os arquivos HTML são localizados. Os padrões de busca são aplicados na ordem em que aparecem na tabela, e a ordem dos padrões de pesquisa pode ser reorganizada arrastando-os na tabela. A sintaxe padrão atualmente suportada é aquela especificada por ICU, que é descrita em Expressões Regulares - Documentação da ICU.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair uma URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a sequência de consulta.

Para adicionar uma linha na tabela, clique no botão Mais, defina o Tipo de Modelo, insira o Padrão de Busca e Modelo e pressione ↩.

Para remover linhas da tabela, selecione-as na tabela e clique no botão Menos.

Para modificar uma linha, dê dois cliques na sequência na tabela, digite uma sequência, e pressione ↩.


JavaScript

Os ajustes nesta aba permitem que você injete JavaScript em visualizações da web ocultas depois que a página termina de carregar, mas antes que outros sub-recursos terminem de carregar. Essa caixa de texto será ativada apenas se o ajuste Transferir usando visualizações web estiver ativado.

JavaScript

Este recurso pode ser usado para realizar qualquer número de tarefas antes que o SiteSucker salve uma página da web. Por exemplo, pode ser usado para clicar em botões que modificam uma página da web antes que o SiteSucker a salve; clicar nos links que transferem os anexos; extrair URLs obscuras de uma página da web; ou renomear arquivos.

Na imagem mostrada acima, o script chama moreImagesFunction() depois que a janela é carregada e o chama novamente sempre que ocorrerem alterações na página da web. Quando moreImagesFunction() é chamado, o elemento com o ID de "tendência" é clicado e uma mensagem é enviada de volta ao SiteSucker solicitando um atraso de cinco segundos antes de salvar a página da web. Este JavaScript torna possível carregar todas as imagens em uma página da web em particular antes que ela seja salva.

O SiteSucker fornece vários manipuladores de mensagens que podem ser usados para passar informações do JavaScript de volta para o aplicativo. Para chamar um manipulador de mensagens em JavaScript, inclua a função window.webkit.messageHandlers.<nome da mensagem>.postMessage(<argumento>) em seu código. Os nomes das mensagens reconhecidas pelo SiteSucker, seu uso e seus argumentos são discutidos na tabela abaixo.

Nome da Mensagem Descrição
delay Permite adicionar um atraso antes de salvar uma página da web. O argumento da função deve ser um número inteiro ou de ponto flutuante que especifica o atraso em segundos. Essencialmente, esta função redefine o ajuste Intervalo ao salvar para o valor passado para a função sem modificar o ajuste no documento SiteSucker.
log Permite que você escreva uma mensagem no arquivo de registro do SiteSucker. O argumento da função deve ser uma string. Esta função pode ser útil ao depurar seu JavaScript.
rename Permite renomear arquivos. O argumento da função deve ser uma matriz contendo duas strings: um padrão de pesquisa seguido por um modelo de substituição. Essas strings são adicionadas temporariamente à tabela Substituir nos ajustes de Caminho e são removidas depois que a transferência do documento é interrompida. Você pode usar esse recurso para renomear arquivos com o conteúdo de texto de um botão ou âncora.
save
saveLast
Permite que você salve o conteúdo atual da visualização web. Algumas páginas da web, como aquelas que contêm tabelas ou galerias de imagens, são atualizadas usando JavaScript ou outros meios quando um elemento é clicado, mas não alteram a URL da página. Você pode usar o manipulador de mensagens save para salvar o conteúdo da visualização web, atualizar a página usando JavaScript, salvar o conteúdo novamente e assim por diante até chamar a mensagem do manipulador saveLast. O argumento da função deve ser uma string contendo um nome exclusivo para a página da web. Esses arquivos são salvos independentemente do ajuste de Número máximo de níveis. Um procedimento para usar esse recurso é descrito abaixo desta tabela.
url Permite que você passe uma URL de volta para o SiteSucker. O argumento da função deve ser uma string que especifica uma URL absoluta ou relativa. O SiteSucker tentará fazer a transferência da URL sem localizar a URL na página da web. Se quiser localizar a URL, você terá que fazer isso sozinho usando JavaScript ou o ajuste Padrões.

A seguir está um exemplo do código JavaScript, com comentários, usado para salvar uma série de páginas de uma única visualização web:

Depois que a última página for salva, o SiteSucker analisará todas as páginas salvas.