Page Web

Webpage

La rubrique Page Web dans le dialogue Paramètres reprend les options suivantes :

Encodage de texte

Utiliser ce paramètre pour spécifier l'encodage du texte des pages Web. SiteSucker va lire et enregistrer toutes les pages Web en utilisant l'encodage du texte spécifié. S'il est fixé à Prédéfini, SiteSucker va essayer de détecter l'encodage du texte des pages Web. Ce paramètres est ignoré lors de la lecture ou l'enregistrement de pages Web ramenées précédemment.

Vérifier tous les liens

Cocher cette case pour que SiteSucker vérifie tous les liens dans tous les fichiers HTML ramenés — y compris les liens vers des fichiers à ne pas ramener — et enregistre toute erreur qui survient. Avec cette option activée, SiteSucker va rapporter beaucoup d'erreurs normalement non signalées. Ce paramètre est prévu comme outil d'épépinage pour les gestionnaires Web qui désirent voir si leur sites contiennent des liens incorrects.

Pour minimiser le temps de vérification de tous les liens, fixer le paramètre de Filtre dans les paramètres Type de fichier à Autoriser les types de fichiers spécifiés en n'y cochant rien, de sorte que seuls les fichiers HTML et CSS seront ramenés, et fixer le paramètre Modification de fichier dans les paramètres Général à Supprimer après analyse, qui va supprimer les fichiers HTML et CSS après leur déchargement et leur analyse.

Analyser les commentaires pour les URL

Cocher cette case pour que SiteSucker analyse les commentaires pour y rechercher des URL dans tous les documents HTML ramenés. Normalement, SiteSucker ignore les commentaires. Cette option est utile lorsque des balises sont inclues dans des commentaires, de sorte qu'elles peuvent être utilisées par Internet Explorer ou JavaScript.

Inclure les fichiers secondaires

Cocher cette case pour que SiteSucker inclue tous les fichiers secondaires dans le déchargement. Lorsque cette option est activée, SiteSucker va ramener les fichiers non-HTML (tels que css, js, jpg, gif, etc.) même s'ils ne sont pas prévus dans les paramètres de Chemin d'accès en cours ou si le Nombre de niveaux maximum dans les paramètres Limite est dépassé. Ce paramètre est utile lors du déchargement de sites qui référencent des feuilles de style , images ou autres fichiers secondaires qui se trouvent sur des serveurs ou dans des sous-domaines différents.

Ramener en utilisant les Web Views

Cocher cette case pour que SiteSucker ramène le HTML en utilisant des Web Views masqués. Lorsque cette option est activée, SiteSucker va charger chaque page Web dans un Web View masqué, pour ensuite extraire le HTML du Web View après le chargement de la page. Ceci peut être utile lorsque les pages Web sont construites avec JavaScript ou lorsque la page Web est un fichier XML qui peut être converti en HTML par le Web View.

Délai d'enregistrement

Utiliser ce paramètre pour spécifier le délai avant d'enregistrer une page Web après qu'elle ait normalement été entièrement chargée dans un Web View. Certaines pages Web peuvent demander plus de temps à se charger parce que leur contenu est généré par JavaScript. Ce paramètre fournit du temps supplémentaire pour terminer le chargement de pages Web avant de les enregistrer.


Attributs

Les paramètres dans cet onglet permettent de spécifier les attributs de données utilisateur que SiteSucker doit analyser pour les URL. Introduits dans HTML5, les attributs de données utilisateur stockent de l'information supplémentaire, habituellement pour le JavaScript de la page, dans les balises HTML standards. Le nom des attributs de données commence par begin data- et ne contient pas de caractères majuscules.

CustomDataAttributes

Pour ajouter un attribut de données utilisateur, cliquer sur Plus, indiquer le nom de l'attribut et enfoncer ↩.

Pour supprimer des attributs de données utilisateur, les sélectionner dans la table et cliquer sur Minus.

Pour modifier un attribut de données utilisateur, faire un double-clic sur son nom dans la table, indiquer un nouveau nom et enfoncer ↩. Tous les noms dans la table doivent être uniques.


Motifs

Les paramètres dans cet onglet permettent de spécifier les expressions rationnelles pour remplacer du texte dans les fichiers HTML ou extraire des URL de texte HTML.

Patterns

Pour remplacer du texte dans les fichiers HTML, fixer le Type de motif à Substitution et indiquer un motif de recherche et un motif de remplacement pour le texte à remplacer. Lorsque du texte correspondant au motif de recherche est trouvé, il va être remplacé selon le motif de remplacement. Le motif de remplacement spécifie ce qu'il faut utiliser pour chaque correspondance, avec la référence arrière $0 représentant le texte concerné, $1 représentant le contenu du premier groupe capturé, et ainsi de suite. Pour supprimer le texte concerné, indiquer un motif blanc.

Pour extraire des URL de texte HTML, fixer le Type de motif à URL et indiquer un motif de recherche et un motif d'URL qui spécifie un URL que SiteSucker doit ramener. Le motif d'URL est ignoré s'il produit un URL blanc ou un URL identique au motif.

Ces motifs de recherche s'appliquent après que le script de pré-analyse ait tourné, mais avant que SiteSucker analyse les fichiers HTML à la recherche des URL. Les motifs de recherche s'appliquent dans l'ordre dans lequel ils apparaissent dans la liste et l'ordre des motifs de recherche peut être modifié en les faisant glisser dans la liste. En conséquence, si se trouvent inclus à la fois un motif de remplacement et un motif d'URL, le texte est remplacé avant que les URL ne soient extraits. La syntaxe des motifs actuellement reconnue est celle spécifiée par ICU qui est décrit dans le Regular Expressions - ICU User Guide.

Par exemple, dans l'image ci-dessus, SiteSucker a pour instructions d'exécuter ce qui suit :

  1. extraire un URL du premier argument de la fonction javascript:openWin() et ensuite
  2. remplacer les URL qui ont une séquence donnée par le même URL sans la séquence de recherche.

Pour ajouter une ligne à la table, cliquer sur Plus, mettre le Type de motif, indiquer le Motif de recherche et le Motif de substitution, et enfoncer retour.

Pour supprimer une ligne de la table, la sélectionner dans la table et cliquer sur Minus.

Pour modifier une ligne, faire un double-clic sur une séquence dans la table, indiquer une nouvelle séquence, et enfoncer ↩.