Página da Web

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Codificação do Texto

Use esse controle para especificar a codificação de texto para páginas da Web. O SiteSucker vai ler e salvar todas as páginas da Web usando a codificação de texto especificada. Se estiver configurado para Padrão, o SiteSucker vai tentar detectar a codificação de texto da página da Web. Essa configuração é ignorada ao ler ou salvar páginas da web que já foram transferidas anteriormente.

Verificar todos os links

Marque esta caixa para que o SiteSucker verifique todos os links em todos os arquivos HTML transferidos — incluindo links para arquivos que você não está transferindo — e registrar quaisquer erros que ocorram. Com esta opção ativada, o SiteSucker pode relatar muitos erros que você normalmente não veria. Esta definição destina-se como uma ferramenta de depuração para web designers que querem ver se os seus próprios sites têm quaisquer links ruins.

Para minimizar o tempo que leva para verificar todos os links, defina o ajuste Filtro nos Ajustes Tipo de Arquivo para Permitir Tipos de Arquivos Específicos sem nada marcado de modo que apenas HTML e CSS são transferidos, e definir o ajuste Modificação do Arquivo em Ajustes Geral para Nenhum.

Seguir apenas links de imagens

Marque esta caixa para que o SiteSucker apenas siga os links de imagem, ou seja, links que você navega em um navegador web, clicando na imagem. Isso é útil quando você deseja transferir galerias que são navegadas, clicando nas miniaturas.

Verificar comentários para URLs

Marque esta caixa para que o SiteSucker verifique comentários de URLs. Normalmente, o SiteSucker ignora comentários. Essa opção é útil quando as etiquetas são incluídas nos comentários para que elas possam ser usadas pelo Internet Explorer ou JavaScript.

Incluir arquivos suportados

Marque esta caixa para que o SiteSucker inclua arquivos suportados na transferência. Quando esta opção está ativada, o SiteSucker fará a transferência de arquivos que não sejam HTML (tais como folhas de estilo, imagens, etc), mesmo que não sejam permitidos pelo atual Ajustes de Caminhos ou quando o Número Máximo de Níveis em Ajustes de Limites é excedido.

Transferir usando visualizações web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização web oculta e então extrair o HTML da visualização web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização web.

Intervalo ao Salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir Usando Visualizações Web estiver ativado.


Atributos

Os ajustes dessa aba permite que você especifique atributos de dados personalizados que o SiteSucker deve analisar em URLs. Introduzido no HTML5, os dados personalizados de atributos armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Dados para atribuir nomes começam com data- e não contêm caracteres maiúsculos.

Atributos de Dados Personalizados

Para adicionar um atributo de dados personalizados, clique no botão Mais, digite o nome do atributo, e pressione ⏎.

Para adicionar um atributo de dados personalizados, clique no botão Menos.

Para modificar um atributo de dados personalizados, dê dois cliques sobre o nome na tabela, digite o novo nome, e pressione ⏎. Todos os nomes da tabela devem ser exclusivos.


Padrões

Os ajustes dessa aba permitem que você use expressões regulares para substituir textos em arquivos HTML ou extrair URLs de um texto HTML.

Padrões

Para substituir textos em arquivos HTML, defina Tipo de Modelo para Substituição e insira um padrão de pesquisa e um modelo de substituição para o texto que deseja substituir. Se for encontrado um texto que corresponda ao padrão de busca, ele é alterado de acordo com o modelo de substituição. O modelo especifica o que deve ser usado para substituir cada string, com a referência reversa $0 representando o texto correspondido, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, insira um modelo em branco.

Para extrair URLs do texto HTML, defina o Tipo de Modelo para URL, insira um padrão de pesquisa e um modelo de URL que especifica a URL que o SiteSucker deve transferir. O modelo de URL será ignorado se resultar em uma URL em branco ou uma URL idêntica ao modelo.

Estes padrões de pesquisa são aplicados depois que qualquer análise prévia de script for executada, mas antes do SiteSucker verificar arquivos HTML para URLs. Os padrões de pesquisa são aplicados na ordem em que aparecem na lista e a ordem dos padrões de pesquisa pode ser reorganizada arrastando-os na lista. A sintaxe padrão atualmente suportada é a especificada pela ICU, que é descrita em Regular Expressions - ICU User Guide.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair uma URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a cadeia de consulta.

Para adicionar uma linha na tabela, clique no botão Mais, digite o padrão de busca, modelo de substituição e/ou modelo da URL e pressione retorno.

Para remover linhas da tabela, selecione-as na tabela e clique no botão Menos.

Para modificar uma linha, dê dois cliques na string na tabela, digite uma string, e pressione retorno.