Page Web

Webpage

La rubrique Page Web dans le dialogue Paramètres reprend les options suivantes :

Encodage du texte

Utiliser ce paramètre pour spécifier l’encodage du texte des pages Web. SiteSucker va lire et enregistrer toutes les pages Web en utilisant l’encodage du texte spécifié. S’il est fixé à Par défaut, SiteSucker va essayer de détecter l’encodage du texte des pages Web. Ce paramètres est ignoré lors de la lecture ou l’enregistrement de pages Web ramenées précédemment.

Vérifier tous les liens

Cocher cette case pour que SiteSucker vérifie tous les liens dans tous les fichiers HTML ramenés — y compris les liens vers des fichiers à ne pas ramener — et enregistre toute erreur qui survient. Avec cette option activée, SiteSucker va rapporter beaucoup d’erreurs normalement non signalées. Ce paramètre est prévu comme outil d’épépinage pour les gestionnaires Web qui désirent voir si leur sites contiennent des liens incorrects.

Pour minimiser le temps de vérification de tous les liens, fixer le paramètre de Filtre dans les paramètres Type de fichier à Autoriser les types de fichiers spécifiés en n’y cochant rien, de sorte que seuls les fichiers HTML et CSS seront ramenés, et fixer le paramètre Modification de fichier dans les paramètres Général à Supprimer après analyse, qui va supprimer les fichiers HTML et CSS après leur déchargement et leur analyse.

Analyser les commentaires pour les URL

Cocher cette case pour que SiteSucker analyse les commentaires pour y rechercher des URL dans tous les documents HTML ramenés. Normalement, SiteSucker ignore les commentaires. Cette option est utile lorsque des balises sont inclues dans des commentaires, de sorte qu’elles peuvent être utilisées par Internet Explorer ou JavaScript.

Inclure les fichiers secondaires

Cocher cette case pour que SiteSucker inclue tous les fichiers secondaires dans le déchargement. Lorsque cette option est activée, SiteSucker va ramener les fichiers non-HTML (tels que css, js, jpg, gif, etc.) même s’ils ne sont pas prévus dans les paramètres de Chemin d’accès en cours ou si le Nombre de niveaux maximum dans les paramètres Limite est dépassé. Ce paramètre est utile lors du déchargement de sites qui référencent des feuilles de style , images ou autres fichiers secondaires qui se trouvent sur des serveurs ou dans des sous-domaines différents.

Ramener en utilisant les Web Views

Cocher cette case pour que SiteSucker ramène le HTML en utilisant des Web Views masqués. Lorsque cette option est activée, SiteSucker va charger chaque page Web dans un Web View masqué, pour ensuite extraire le HTML du Web View après le chargement de la page. Ceci peut être utile lorsque les pages Web sont construites avec JavaScript ou lorsque la page Web est un fichier XML qui peut être converti en HTML par le Web View.

Créer un PDF

Cocher cette case pour que SiteSucker ramène un site sous forme de document PDF. Chaque page Web est rendue comme une seule page dans le document, et la largeur et la hauteur minimale de chaque page PDF sont déterminées par le paramètre Taille d'affichage Web. L'ordre des pages dans le document sera quelque peu aléatoire en raison de la nature non linéaire des sites Web. Les liens Internet sont conservés dans le document et les liens vers les pages ramenés sont modifiés afin que l'utilisateur soit dirigé vers l'emplacement approprié dans le document. Seuls les pages Web et autres fichiers pouvant être affichés dans un navigateur Web sont inclus dans le document. Ce contrôle n'est activé que si le paramètre Ramener en utilisant les Web Views est activé.

Lorsque ce paramètre est activé, les autres paramètres qui ne s'appliquent pas sont ignorés. Cela inclut les paramètres suivants :

  • Ignorer « Filename » des en-têtes
  • Traiter les URL ambigus comme dossiers
  • Toujours ramener HTML et CSS
  • Remplacement de fichier
  • Modification de fichier
  • Nombre de fichiers maximum
  • Taille de fichier minimum
  • Taille de fichier maximum
  • Taille minimum de l’image
  • Chemins d’accès à remplacer
  • Encodage du texte
  • Vérifier tous les liens
  • Analyser les commentaires pour les URL
  • Attributs
  • Motifs
  • Script
  • Vidéo

Délai d’enregistrement

Utiliser ce paramètre pour spécifier le délai avant d’enregistrer une page Web après qu’elle ait normalement été entièrement chargée dans un Web View. Certaines pages Web peuvent demander plus de temps à se charger parce que leur contenu est généré par JavaScript. Ce paramètre fournit du temps supplémentaire pour terminer le chargement de pages Web avant de les enregistrer. Ce contrôle n'est activé que si le paramètre Ramener en utilisant les Web Views est activé.

Taille de le Web View

Utiliser ce contrôle pour spécifier la taille des Web Views masquées. La largeur de le Web View peut affecter l'apparence des pages Web ramenés et des documents PDF créés par SiteSucker. La hauteur de le Web View détermine la hauteur de page minimale lors de la création de documents PDF. Ce contrôle n'est activé que si le paramètre Ramener en utilisant les Web Views est activé.


Attributs

Les paramètres dans cet onglet permettent de spécifier les attributs de données utilisateur que SiteSucker doit analyser pour les URL. Introduits dans HTML5, les attributs de données utilisateur stockent de l’information supplémentaire, habituellement pour le JavaScript de la page, dans les balises HTML standards. Le nom des attributs de données commence par begin data- et ne contient pas de caractères majuscules.

CustomDataAttributes

Pour ajouter un attribut de données utilisateur, cliquer sur Plus, indiquer le nom de l’attribut et enfoncer ↩.

Pour supprimer des attributs de données utilisateur, les sélectionner dans la table et cliquer sur Minus.

Pour modifier un attribut de données utilisateur, faire un double-clic sur son nom dans la table, indiquer un nouveau nom et enfoncer ↩. Tous les noms dans la table doivent être uniques.


Motifs

Les paramètres dans cet onglet permettent de spécifier les expressions rationnelles pour remplacer du texte dans les fichiers HTML ou extraire des URL de texte HTML.

Patterns

Pour remplacer du texte dans les fichiers HTML, fixer le Type de motif à Substitution anticipée ou Substitution tardive et indiquer un motif de recherche et un motif de remplacement pour le texte à remplacer. Lorsque du texte correspondant au motif de recherche est trouvé, il va être remplacé selon le motif de remplacement. Le motif de remplacement spécifie ce qu’il faut utiliser pour chaque correspondance, avec la référence arrière $0 représentant le texte concerné, $1 représentant le contenu du premier groupe capturé, et ainsi de suite. Pour supprimer le texte concerné, laissez le motif vide.

Pour extraire des URL de texte HTML, fixer le Type de motif à Extraction d'URL et indiquer un motif de recherche et un motif d’URL qui spécifie un URL que SiteSucker doit ramener. Le motif d’URL est ignoré s’il produit un URL blanc ou un URL identique au motif.

Les motifs de recherche Extraction d'URL et Substitution anticipée sont appliqués après l'exécution de le script de pré-analyse, mais avant que SiteSucker analyse les fichiers HTML à la recherche des URL. Le motif de recherche Substitution tardive est appliqué après la conversion des fichiers HTML. Les motifs de recherche s’appliquent dans l’ordre dans lequel ils apparaissent dans la liste et l’ordre des motifs de recherche peut être modifié en les faisant glisser dans la liste. En conséquence, si se trouvent inclus à la fois un motif de remplacement et un motif d’URL, le texte est remplacé avant que les URL ne soient extraits. La syntaxe des motifs actuellement reconnue est celle spécifiée par ICU qui est décrit dans le Regular Expressions - ICU Documentation.

Par exemple, dans l’image ci-dessus, SiteSucker a pour instructions d’exécuter ce qui suit :

  1. extraire un URL du premier argument de la fonction javascript:openWin() et ensuite
  2. remplacer les URL qui ont une séquence donnée par le même URL sans la séquence de recherche.

Pour ajouter une ligne à la table, cliquer sur Plus, mettre le Type de motif, indiquer le Motif de recherche et le Motif de substitution, et enfoncer retour.

Pour supprimer une ligne de la table, la sélectionner dans la table et cliquer sur Minus.

Pour modifier une ligne, faire un double-clic sur une séquence dans la table, indiquer une nouvelle séquence, et enfoncer ↩.


JavaScript

Les paramètres sous cet onglet permettent d’injecter du JavaScript dans des Web Views masqués une fois le chargement de la page terminé, mais avant le chargement des autres sous-ressources. Cette case de texte n’est disponible que si l’option Ramener en utilisant les Web Views est activée.

JavaScript

Cette fonction peut être utilisée pour effectuer un certain nombre de tâches avant que SiteSucker enregistre une page Web. Par exemple, il peut être utilisé pour cliquer sur des boutons qui modifient une page Web avant que SiteSucker l’enregistre, cliquer sur les liens qui ramènent les pièces jointes, extraire des URL obscurs d’une page Web ou changer le nom de fichiers.

Dans l’image ci-dessus, le script appelle la moreImagesFunction() après le chargement de la fenêtre et le rappelle chaque fois que des changements de page Web se produisent. Lorsque moreImagesFunction() est appelé, l’élément avec l’ID tendance est cliqué et un message est renvoyé à SiteSucker demandant un délai de cinq secondes avant d’enregistrer la page Web. Ce JavaScript permet de charger toutes les images d’une page Web avant son enregistrement.

SiteSucker fournit plusieurs gestionnaires de message à utiliser pour passer de l’information de retour de JavaScript vers l’application. Pour appeler un gestionnaires de message, inclure dans le code, la fonction window.webkit.messageHandlers.<nom du message>.postMessage(<argument>). Les noms de message reconnus par SiteSucker, leur utilisation et leurs arguments sont présentés dans la table ci-dessous.

Nom du message Description
delay Permet d’ajouter un délai avant d’enregistrer une page Web. L’argument de la fonction doit être un nombre entier ou en virgule flottante qui spécifie le délai en secondes. Essentiellement, cette fonction remet le paramètre Délai d’enregistrement à la valeur passée à la fonction sans modifier le paramètre dans le document SiteSucker.
log Permet d’écrire un message dans le journal de bord de SiteSucker. L’argument de la fonction doit être une chaîne. Cette fonction peut être utile pour épépiner le JavaScript.
rename Permet de rebaptiser des fichiers. L’argument de la fonction doit être un ensemble contenant deux chaînes : un motif de recherche suivi d’une chaîne de remplacement. Ces chaînes sont ajoutées temporairement à la table Remplacer dans les paramètres de Chemin d’accès et sont supprimés à l’arrêt du déchargement du document. Cette fonction peut être utile pour rebaptiser des fichiers avec le contenu du texte d’un bouton ou d’une ancre.
save
saveLast
Permet d’enregistrer le contenu actuel du Web View. Certaines pages Web, telles que celles contenant des tables ou des galeries d’images, mettent à jour avec JavaScript ou d’autres moyens lorsqu’un élément est cliqué mais sans changer l’URL de la page. Le gestionnaire de message save permet d’enregistrer le contenu du Web View, mettre la page à jour avec JavaScript, enregistrer à nouveau le contenu et ainsi de suite jusqu’à l’appel du gestionnaire de message saveLast. L’argument de la fonction doit être une chaîne contenant un nom unique pour la page Web. Ces fichiers sont enregistrés sans tenir compte du paramètre Nombre de niveaux maximum. Une procédure pour utiliser cette fonction est présentée sous cette table.
url Permet de passer un URL en retour à SiteSucker. L’argument de la fonction doit être une chaîne qui spécifie un URL absolu ou relatif. SiteSucker va alors essayer de ramener l’URL sans convertir l’URL sur la page Web. Si l’URL doit être converti, il faut le faire soi-même en utilisant JavaScript ou le paramètre Motifs.

Ce qui suit est un exemple de code JavaScript, avec des commentaires, utilisé pour enregistrer une série de pages à partir d'une seule Web View :

Lorsque la dernière page est enregistrée, SiteSucker va analyser toutes les pages enregistrées.