Page Web

Les paramètres Page Web permettent de configurer comment les pages Web sont ramenées, analysées et modifiées.

Webpage

La rubrique Page Web dans le dialogue Paramètres reprend les options suivantes :

Encodage du texte


Utiliser ce paramètre pour spécifier l’encodage du texte des pages Web. SiteSucker va lire et enregistrer toutes les pages Web en utilisant l’encodage du texte spécifié. S’il est fixé à Par défaut, SiteSucker va essayer de détecter l’encodage du texte des pages Web. Ce paramètres est ignoré lors de la lecture ou l’enregistrement de pages Web ramenées précédemment.

Ramener en utilisant les Web Views

Cocher cette case pour que SiteSucker ramène le HTML en utilisant des Web Views masqués. Lorsque cette option est activée, SiteSucker va charger chaque page Web dans un Web View masqué, pour ensuite extraire le HTML du Web View après le chargement de la page. Ceci peut être utile lorsque les pages Web sont construites avec JavaScript ou lorsque la page Web est un fichier XML qui peut être converti en HTML par le Web View.

Créer un PDF

Cocher cette case pour que SiteSucker ramène un site sous forme de document PDF. Chaque page Web est convertie en une simple page dans le document, et la largeur et la hauteur minimum de chaque page PDF sont déterminées par le paramètre Taille du Web View. L’ordre des pages dans le document sera quelque peu aléatoire vu la nature non linéaire des sites Web. Les liens Internet sont conservés dans le document et les liens vers les pages ramenées sont modifiés en fonction de la localisation correcte dans le document document. Seuls les pages Web et autres fichiers pouvant s'afficher dans un navigateur Web sont reprises dans le document. Cette case n’est disponible que si l’option Ramener en utilisant les Web Views est activée. Lorsque cette option est activée, les autres paramètres qui ne s’appliquent pas sont ignorés.

Ajouter en-tête et pied de page

Cocher cette case pour que SiteSucker ajoute l’en-tête et le pied de page au document PDF produit par le paramètre Créer un PDF. En particulier URL, titre ou nom, date et heure, et numéro de page sont ajoutés à chaque page du document PDF. Cette fonction n’est disponible que si l’option Créer un PDF est activée.

Délai d’enregistrement

Utiliser ce paramètre pour spécifier le délai avant d’enregistrer une page Web après qu’elle ait normalement été entièrement chargée dans un Web View. Certaines pages Web peuvent demander plus de temps à se charger parce que leur contenu est généré par JavaScript. Ce paramètre fournit du temps supplémentaire pour terminer le chargement de pages Web avant de les enregistrer. Ce contrôle n'est activé que si le paramètre Ramener en utilisant les Web Views est activé.

Taille du Web View

Utiliser ce paramètre pour spécifier la taille des Web Views masqués. La largeur du Web View peut affecter l'aspect des pages Web ramenées et des documents PDF créés par SiteSucker. La hauteur du Web View détermine la hauteur de page minimum lors de la création de documents PDF. Ce paramètre n’est disponible que si l’option Ramener en utilisant les Web Views est activée.


Attributs

Les paramètres dans cet onglet permettent de spécifier les attributs de données utilisateur que SiteSucker doit analyser pour les URL. Introduits dans HTML5, les attributs de données utilisateur stockent de l’information supplémentaire, habituellement pour le JavaScript de la page, dans les balises HTML standards. Le nom des attributs de données commence par begin data- et ne contient pas de caractères majuscules.

CustomDataAttributes

Pour ajouter un attribut de données utilisateur, cliquer sur Plus, indiquer le nom de l’attribut et enfoncer ↩.

Pour supprimer des attributs de données utilisateur, les sélectionner dans la table et cliquer sur Minus.

Pour modifier un attribut de données utilisateur, faire un double-clic sur son nom dans la table, indiquer un nouveau nom et enfoncer ↩. Tous les noms dans la table doivent être uniques.


Motifs

Les paramètres dans cet onglet permettent de faire ce qui suit :.

  • Spécifie les expressions rationnelles qui modifient les fichiers HTML de sorte que les pages Web ramenées s’affichent et se comportent correctement.
  • Extrait et ramène les URL enchâssé dans le JavaScript ou le HTML non standard que SiteSucker négligerait autrement.
  • Inclut ou exclut les URL en les extrayant du texte HTML.
  • Détecte les problèmes avec des fichiers HTML ramenés et qui requièrent que les fichiers soient ramenés à nouveau.
Patterns

Pour remplacer du texte dans les fichiers HTML, fixer l’action à Substitution anticipée ou Substitution tardive et indiquer un motif de recherche et un modèle de remplacement pour le texte à remplacer. Lorsque du texte correspondant au motif de recherche est trouvé, il va être remplacé selon le modèle de remplacement. Le modèle spécifie ce qu’il faut utiliser pour chaque correspondance, avec la référence arrière $0 représentant le texte concerné, $1 représentant le contenu du premier groupe capturé, et ainsi de suite. Pour supprimer le texte concerné, laisser le modèle à blanc.

Pour extraire des URL de texte HTML, fixer l’action à Extraction d’URL et indiquer un motif de recherche et un modèle d’URL qui spécifie un URL à extraire. Si le texte trouvé correspond au motif recherché, SiteSucker extrait l’URL spécifié par le motif d’URL, le convertit en URL absolu si nécessaire, et ensuite essaie de ramener l’URL. L’URL extrait est ignoré si l’action produit un URL blanc ou un URL identique au modèle. SiteSucker ignore aussi l’URL extrait s’il n’est pas autorisé par les autres paramètres.

Pour inclure un URL extrait d’un texte HTML, fixer l’action à Inclure l’URL et indiquer un motif de recherche et un modèle d’URL pour l’URL à inclure. Si le texte trouvé correspond au motif recherché, SiteSucker extrait l’URL spécifié par le modèle d’URL, le convertit en URL absolu si nécessaire, et ensuite l’ajoute à tous les autres URL de la table Inclure dans les paramètres URL. L’URL extrait est ignoré si l’action produit un URL blanc ou un URL identique au modèle. Cette action n’altère pas les paramètres URL affichés dans l’app.

Pour exclure un URL extrait d’un texte HTML, fixer l’action à Exclure l’URL et indiquer un motif de recherche et un modèle d’URL pour l’URL à exclure. Si le texte trouvé correspond au motif recherché, SiteSucker extrait l’URL spécifié par le modèle d’URL, le convertit en URL absolu si nécessaire, et ensuite l’ajoute à tous les autres URL de la table Exclure dans les paramètres URL. L’URL extrait est ignoré si l’action produit un URL blanc ou un URL identique au modèle. Cette action n’altère pas les paramètres URL affichés dans l’app.

Pour réessayer le déchargement d’un fichier HTML si un motif est trouvé dans un texte HTML, fixer l’action à Réessayer si trouvé et indiquer un motif de recherche. Si le texte correspondant au motif de la recherche est trouvé dans le fichier, SiteSucker va essayer de ramener à nouveau le fichier HTML. Pour réessayer le déchargement d’un fichier HTML si un motif n’est pas trouvé dans le texte HTML, fixer l’action à Réessayer si manquant et indiquer un motif de recherche. Si le texte correspondant au motif de la recherche n’est pas trouvé dans le fichier, SiteSucker va essayer de ramener à nouveau le fichier HTML. Si SiteSucker a atteint le nombre d’essais spécifié dans le paramètre Requête, le fichier HTML est supprimé et un code erreur 259 (fichier abîmé) est enregistré. La valeur du motif est ignoré pour ces actions.

Les actions Réessayer si trouvé et Réessayer si manquant s’appliquent après que le script de pré-analyse ait tourné. Les actions Extraction d’URL, Inclure l’URL, Exclure l’URL et Substitution anticipée s’appliquent après que les actions Réessayer si trouvé et Réessayer si manquant aient tourné, mais avant que SiteSucker analyse le fichier HTML pour les URL. L’action Substitution tardive s’applique après la conversion du fichier HTML. D’autre part les actions s’appliquent dans l’ordre dans lequel ils apparaissent dans la table, et cet ordre des actions peut être réarrangé en les faisant glisser dans la table. La syntaxe des motifs habituellement reconnue est celle spécifiée par ICU et décrite à Regular Expressions | ICU Documentation.

Par exemple, dans l’image ci-dessus, SiteSucker a pour instructions d’exécuter ce qui suit :

  1. extraire un URL du premier argument de la fonction javascript:openWin() et ensuite
  2. remplacer les URL qui ont une séquence donnée par le même URL sans la séquence de recherche.

Pour ajouter une ligne à la table, cliquer sur Plus, mettre le Action, indiquer le Motif de recherche et le Motif de substitution, et enfoncer retour.

Pour supprimer une ligne de la table, la sélectionner dans la table et cliquer sur Minus.

Pour modifier une ligne, faire un double-clic sur une séquence dans la table, indiquer une nouvelle séquence, et enfoncer ↩.


JavaScript

Les paramètres sous cet onglet permettent d’injecter du JavaScript dans des Web Views masqués une fois le chargement de la page terminé, mais avant le chargement des autres sous-ressources. Cette case de texte n’est disponible que si l’option Ramener en utilisant les Web Views est activée.

JavaScript

Cette fonction peut être utilisée pour effectuer un certain nombre de tâches avant que SiteSucker enregistre une page Web. Par exemple, il peut être utilisé pour cliquer sur des boutons qui modifient une page Web avant que SiteSucker l’enregistre, cliquer sur les liens qui ramènent les pièces jointes, extraire des URL obscurs d’une page Web ou changer le nom de fichiers.

Dans l’image ci-dessus, le script appelle la moreImagesFunction() après le chargement de la fenêtre et le rappelle chaque fois que des changements de page Web se produisent. Lorsque moreImagesFunction() est appelé, l’élément avec l’ID tendance est cliqué et un message est renvoyé à SiteSucker demandant un délai de cinq secondes avant d’enregistrer la page Web. Ce JavaScript permet de charger toutes les images d’une page Web avant son enregistrement.

SiteSucker fournit plusieurs gestionnaires de message à utiliser pour passer de l’information de retour de JavaScript vers l’application. Pour appeler un gestionnaires de message, inclure dans le code, la fonction window.webkit.messageHandlers.<nom du message>.postMessage(<argument>). Les noms de message reconnus par SiteSucker, leur utilisation et leurs arguments sont présentés dans la table ci-dessous.

Nom du message Description
delay Permet d’ajouter un délai avant d’enregistrer une page Web. L’argument de la fonction doit être un nombre entier ou en virgule flottante qui spécifie le délai en secondes. Essentiellement, cette fonction remet le paramètre Délai d’enregistrement à la valeur passée à la fonction sans modifier le paramètre dans le document SiteSucker.
log Permet d’écrire un message dans le journal de bord de SiteSucker. L’argument de la fonction doit être une chaîne. Cette fonction peut être utile pour épépiner le JavaScript.
progress Permet de rapporter la progression. L’argument de la fonction doit être un nombre en virgule flottante entre 0 et 1. SiteSucker va afficher la valeur comme un pourcentage.
rename Permet de rebaptiser des fichiers. L’argument de la fonction doit être un ensemble contenant deux chaînes : un motif de recherche suivi d’un modèle de remplacement. Ces chaînes sont ajoutées temporairement à la table Remplacer dans les paramètres de Chemin d’accès et sont supprimés à l’arrêt du déchargement du document. Cette fonction peut être utile pour rebaptiser des fichiers avec le contenu du texte d’un bouton ou d’une ancre.
save
saveLast
Permet d’enregistrer le contenu actuel du Web View. Certaines pages Web, telles que celles contenant des tables ou des galeries d’images, mettent à jour avec JavaScript ou d’autres moyens lorsqu’un élément est cliqué mais sans changer l’URL de la page. Le gestionnaire de message save permet d’enregistrer le contenu du Web View, mettre la page à jour avec JavaScript, enregistrer à nouveau le contenu avec un autre nom et ainsi de suite jusqu’à l’appel du gestionnaire de message saveLast. L’argument de la fonction doit être une chaîne contenant un nom unique pour la page Web. Ces fichiers sont enregistrés sans tenir compte du paramètre Nombre de niveaux maximum. Une procédure pour utiliser cette fonction est présentée sous cette table.
url Permet de passer un URL en retour à SiteSucker. L’argument de la fonction doit être une chaîne qui spécifie un URL absolu ou relatif. SiteSucker va alors essayer de ramener l’URL sans convertir l’URL sur la page Web. Si l’URL doit être converti, il faut le faire soi-même en utilisant JavaScript ou le paramètre Motifs.

Ce qui suit est un exemple de code JavaScript, avec commentaires, utilisé pour enregistrer une série de pages à partir d’un seule Web View :

Lorsque la dernière page est enregistrée, SiteSucker va analyser toutes les pages enregistrées.