Page Web

Webpage

La rubrique Page Web dans le dialogue Paramètres reprend les options suivantes :

Encodage du texte

Utiliser ce paramètre pour spécifier l'encodage du texte des pages Web. SiteSucker va lire et enregistrer toutes les pages Web en utilisant l'encodage du texte spécifié. S'il est fixé à Par défaut, SiteSucker va essayer de détecter l'encodage du texte des pages Web. Ce paramètres est ignoré lors de la lecture ou l'enregistrement de pages Web ramenées précédemment.

Vérifier tous les liens

Cocher cette case pour que SiteSucker vérifie tous les liens dans tous les fichiers HTML ramenés — y compris les liens vers des fichiers à ne pas ramener — et enregistre toute erreur qui survient. Avec cette option activée, SiteSucker va rapporter beaucoup d'erreurs normalement non signalées. Ce paramètre est prévu comme outil d'épépinage pour les gestionnaires Web qui désirent voir si leur sites contiennent des liens incorrects.

Pour minimiser le temps de vérification de tous les liens, fixer le paramètre de Filtre dans les paramètres Type de fichier à Autoriser les types de fichiers spécifiés en n'y cochant rien, de sorte que seuls les fichiers HTML et CSS seront ramenés, et fixer le paramètre Modification de fichier dans les paramètres Général à Aucune.

Ne suivre que les liens d'image

Cocher cette case pour que SiteSucker ne suive que les liens d'image, i. e. des liens vers lesquels vous désirez naviguer avec votre navigateur Web en cliquant sur une image. Ceci est utile lorsque vous désirez ramener des galleries dans lesquelles il est possible de naviguer en cliquant sur des vignettes

Analyser les commentaires pour les URL

Cocher cette case pour que SiteSucker analyse les commentaires pour y rechercher des URL. Normalement, SiteSucker ignore les commentaires. Cette option est utile lorsque des balises sont inclues dans des commentaires, de sorte qu'elles peuvent être utilisées par Internet Explorer ou JavaScript.

Inclure les fichiers secondaires

Cocher cette case pour que SiteSucker inclue les fichiers secondaires dans le déchargement. Lorsque cette option est activée, SiteSucker va ramener les fichiers non-HTML (tels que css, js, jpg, gif, etc.) même s'ils ne sont pas prévus dans les paramètres Chemin d'accès en cours ou si le Nombre de niveaux maximum dans les paramètres Limite est dépassé.

Ramener à l'aide de Web Views

Cocher cette case pour que SiteSucker ramène le HTML en utilisant des Web Views masqués. Lorsque cette option est activée, SiteSucker va charger chaque fichier HTML dans un Web View masqué, pour ensuite extraire le HTML du Web View après le chargement de la page. Ceci peut être utile si le fichier utilise du JavaScript pour modifier le HTML lorsque la page se charge ou si le fichier est un fichier XML qui peut être converti en HTML par le Web View.

Délai d'enregistrement

Utiliser ce paramètre pour spécifier le délai avant d'enregistrer une page Web après qu'elle ait normalement été entièrement chargée dans un Web View. Certaines pages Web peuvent demander plus de temps à se charger parce que leur contenu est généré par JavaScript. Ce paramètre fournit du temps supplémentaire pour terminer le chargement de pages Web avant de les enregistrer.


Attributs

Les paramètres dans cet onglet permettent de spécifier les attributs de données utilisateur que SiteSucker doit analyser pour les URL. Introduits dans HTML5, les attributs de données utilisateur stockent de l'information supplémentaire, habituellement pour le JavaScript de la page, dans les balises HTML standards. Le nom des attributs de données commence par begin data- et ne contient pas de caractères majuscules.

CustomDataAttributes

Pour ajouter un attribut de données utilisateur, cliquer sur Plus, indiquer le nom de l'attribut et enfoncer ⏎.

Pour supprimer des attributs de données utilisateur, les sélectionner dans la table et cliquer sur Minus.

Pour modifier un attribut de données utilisateur, faire un double-clic sur son nom dans la table, indiquer un nouveau nom et enfoncer ⏎. Tous les noms dans la table doivent être uniques.


Motifs

Les paramètres dans cet onglet permettent de spécifier les expressions rationnelles pour remplacer du texte dans les fichiers HTML et/ou extraire des URL de texte HTML.

Patterns

Pour remplacer du texte dans les fichiers HTML, indiquer un motif de recherche et un motif de substitution pour le texte à remplacer. Lorsque du texte correspondant au motif de recherche est trouvé, il va être remplacé selon le motif de substitution. Le motif de substitution spécifie ce qu'il faut utiliser pour chaque correspondance, avec la référence arrière $0 représentant le texte concerné, $1 représente le contenu du premier groupe capturé, et ainsi de suite. Pour supprimer le texte concerné, indiquer une référence arrière qui n'a de correspondance de groupe trouvé.

Pour extraire des URL de texte HTML, indiquer un motif de recherche et un modèle d’URL qui spécifie un URL que SiteSucker doit ramener. Le modèle d’URL est ignoré s'il n'inclut pas de référence arrière ou s'il produit un URL blanc.

Ces motifs de recherche s'appliquent après que le script de pré-analyse ait tourné, mais avant que SiteSucker analyse les fichiers HTML à la recherche des URL. Les motifs de recherche s'appliquent dans l'ordre dans lequel ils apparaissent dans la liste et l'ordre des motifs de recherche peut être modifié en les faisant glisser dans la liste. En conséquence, si se trouvent inclus à la fois un motif de substitution et un modèle d’URL, le texte est remplacé avant que les URL ne soient extraits. La syntaxe des motifs actuellement reconnue est celle spécifiée par ICU. Les expressions rationnelles ICU sont décrites dans le Regular Expressions - ICU User Guide.

Par exemple, dans l'image ci-dessus, SiteSucker a pour instructions d'exécuter ce qui suit :

  1. extraire un URL du premier argument de la fonction javascript:openWin() et ensuite
  2. remplacer les URL qui ont une séquence donnée par le même URL sans la séquence de recherche.

Pour ajouter une ligne à la table, cliquer sur Plus, indiquer le motif de recherche, le motif de substitution et/ou le modèle d’URL, et enfoncer retour.

Pour supprimer une ligne de la table, la sélectionner dans la table et cliquer sur Minus.

Pour modifier une ligne, faire un double-clic sur une séquence dans la table, indiquer une nouvelle séquence, et enfoncer retour.