Página da Web

Página da Web

A seção Página da web do diálogo Ajustes fornece os seguintes controles:

Codificação do Texto

Use esse controle para especificar a codificação de texto para páginas da Web. O SiteSucker vai ler e salvar todas as páginas da Web usando a codificação de texto especificada. Se estiver configurado para Padrão, o SiteSucker vai tentar detectar a codificação de texto da página da Web. Essa configuração é ignorada ao ler ou salvar páginas da web que já foram transferidas anteriormente.

Verificar todos os links

Marque esta caixa para que o SiteSucker verifique todos os links em todos os arquivos HTML transferidos — incluindo links para arquivos que você não está transferindo — e registrar quaisquer erros que ocorram. Com esta opção ativada, o SiteSucker pode relatar muitos erros que você normalmente não veria. Esta definição destina-se como uma ferramenta de depuração para web designers que querem ver se os seus próprios sites têm quaisquer links ruins.

Para minimizar o tempo que leva para verificar todos os links, defina o ajuste Filtro nos Ajustes Tipo de Arquivo para Permitir Tipos de Arquivos Específicos sem nada marcado de modo que apenas HTML e CSS são transferidos, e definir o ajuste Modificação do Arquivo em Ajustes Geral para Nenhum.

Seguir apenas links de imagens

Marque esta caixa para que o SiteSucker apenas siga os links de imagem, ou seja, links que você navega em um navegador web, clicando na imagem. Isso é útil quando você deseja transferir galerias que são navegadas, clicando nas miniaturas.

Verificar comentários para URLs

Marque esta caixa para que o SiteSucker verifique comentários de URLs. Normalmente, o SiteSucker ignora comentários. Essa opção é útil quando as etiquetas são incluídas nos comentários para que elas possam ser usadas pelo Internet Explorer ou JavaScript.

Incluir arquivos suportados

Marque esta caixa para que o SiteSucker inclua arquivos suportados na transferência. Quando esta opção está ativada, o SiteSucker fará a transferência de arquivos que não sejam HTML (tais como folhas de estilo, imagens, etc), mesmo que não sejam permitidos pelo atual Ajustes de Caminhos ou quando o Número Máximo de Níveis em Ajustes de Limites é excedido.

Transferir usando visualizações web

Marque esta caixa para que o SiteSucker transfira HTML utilizando visualizadores web ocultos. Quando esta opção está ativada, o SiteSucker irá carregar cada arquivo HTML em uma visualização web oculta e então extrair o HTML da visualização web depois que a página é carregada. Isso pode ser útil se o arquivo usa JavaScript para modificar o HTML quando a página está sendo carregada ou se o arquivo é um arquivo XML que pode ser convertido em HTML pela visualização web.

Intervalo ao Salvar

Use esse controle para especificar o intervalo de salvamento de uma página do site depois de supostamente ter concluído o carregamento em uma visualização web. Algumas páginas da Web podem levar mais tempo para carregar porque o seu conteúdo é gerado usando JavaScript. Este ajuste proporciona tempo adicional para páginas da web concluírem o carregamento antes de serem salvas. Este controle é ativado apenas se o ajuste Transferir Usando Visualizações Web estiver ativado.


Atributos

Os ajustes dessa aba permite que você especifique atributos de dados personalizados que o SiteSucker deve analisar em URLs. Introduzido no HTML5, os dados personalizados de atributos armazenam informações extras, geralmente para o JavaScript da página, em tags HTML padrão. Dados para atribuir nomes começam com data- e não contêm caracteres maiúsculos.

Atributos de Dados Personalizados

Para adicionar um atributo de dados personalizados, clique no botão Mais, digite o nome do atributo, e pressione ⏎.

Para adicionar um atributo de dados personalizados, clique no botão Menos.

Para modificar um atributo de dados personalizados, dê dois cliques sobre o nome na tabela, digite o novo nome, e pressione ⏎. Todos os nomes da tabela devem ser exclusivos.


Padrões

Os ajustes dessa aba permitem que você use expressões regulares para substituir textos em arquivos HTML e/ou extrair URLs de um texto HTML.

Padrões

Para substituir um texto em arquivos HTML, digite um padrão de busca e um modelo de substituição para o texto que você gostaria de substituir. Se o texto que corresponde ao padrão de busca for encontrado, ele será alterado de acordo com o modelo de substituição. O modelo especifica o que é para ser utilizado para substituir cada correspondência, com a referência $0 representando o texto correspondente, $1 representando o conteúdo do primeiro grupo de captura, e assim por diante. Para apagar o texto correspondente, digite uma referência que não tenha um grupo de captura correspondente.

Para extrair URLs de texto HTML, digite um padrão de busca e um modelo de URL que especifique uma URL que o SiteSucker deve transferir. O modelo de URL é ignorado se ele não inclui uma referência ou ela produz uma URL em branco.

Estes padrões de pesquisa são aplicados depois de qualquer análise prévia script ser executada, mas antes o SiteSucker verifica as URLs nos arquivos HTML. padrões de pesquisa são aplicados na ordem em que aparecem na lista, e a ordem de padrões de pesquisa podem ser reorganizados, arrastando-os na lista. Além disso, se você incluir tanto um modelo de substituição e um modelo de URL, o texto é substituído antes das URLs serem extraídas. A sintaxe padrão suportada atualmente é especificada pela ICU. As expressões regulares ICU estão descritas em Expressões Regulares - Manual do Usuário ICU.

Como no exemplo, na imagem mostrada acima, o SiteSucker é instruído a fazer o seguinte:

  1. extrair uma URL do primeiro argumento da função javascript:openWin() e então
  2. substituir URLs que tem uma determinada cadeia de consulta com a mesma URL sem a cadeia de consulta.

Para adicionar uma linha na tabela, clique no botão Mais, digite o padrão de busca, modelo de substituição e/ou modelo da URL e pressione retorno.

Para remover linhas da tabela, selecione-as na tabela e clique no botão Menos.

Para modificar uma linha, dê dois cliques na string na tabela, digite uma string, e pressione retorno.