URL

Les paramètres URL fournissent les moyens pour spécifier quels URL sont à inclure ou exclure du déchargement.

URL

La rubrique URL de la zone de dialogue Paramètres reprend les options suivantes :

Vérifier tous les liens

Cocher cette case pour que SiteSucker vérifie tous les liens dans tous les fichiers HTML ramenés — y compris les liens vers des fichiers à ne pas ramener — et enregistre toute erreur qui survient. Avec cette option activée, SiteSucker va rapporter beaucoup d’erreurs normalement non signalées. Ce paramètre est prévu comme outil d’épépinage pour les gestionnaires Web qui désirent voir si leur sites contiennent des liens incorrects.

Pour minimiser le temps de vérification de tous les liens, fixer le paramètre de Filtre dans les paramètres Type de fichier à Autoriser les types de fichiers spécifiés en n’y cochant rien, de sorte que seuls les fichiers HTML et CSS seront ramenés, et fixer le paramètre Modification de fichier dans les paramètres Général à Supprimer après analyse, qui va supprimer les fichiers HTML et CSS après leur déchargement et leur analyse.

Analyser les sitemaps pour les URL

Cocher cette case pour que SiteSucker analyse les cartes de site pour y rechercher des URL. Les cartes de site permettent aux moteurs de recherche de parcourir un site de manière plus efficace et de trouver des URL qui peuvent être isolés du reste du contenu du site. Voir Robot Exclusions de robot pour plus d’information information concernant les cartes de site.

Analyser les commentaires pour les URL

Cocher cette case pour que SiteSucker analyse les commentaires pour y rechercher des URL dans tous les documents HTML ramenés. Normalement, SiteSucker ignore les commentaires. Cette option est utile lorsque des balises sont inclues dans des commentaires, de sorte qu’elles peuvent être utilisées par Internet Explorer ou JavaScript.

Traiter les URL ambigus comme dossiers

Cocher cette case pour que SiteSucker traite les URL ambigus comme dossiers. Si un URL ne se termine pas par un ‘/’ ni une extension de fichier, SiteSucker considère que c’est ambigu. Par exemple, si cette option est activée et que SiteSucker ramène une page Web de http://www.example.com/directory, la page Web va être enregistrée sous www.example.com/directory/index.html dans le dossier de destination. Si cette option est désactivée, la page Web va être enregistrée sous www.example.com/directory.html dans le dossier de destination. Voir Noms de fichier pour plus d’information concernant la manière dont SiteSucker nomme les fichiers ramenés.

Ramener les liens dans les fichiers PDF

Cocher cette case pour que SiteSucker ramène les fichiers référencés dans les documents PDF si cela est autorisé par les autres paramètres. Comme les liens de PDF ne peuvent pas être convertis, les documents PDF eux-mêmes ne sont jamais modifiés.


Contrainte d’URL

Utiliser cette option pour limiter les fichiers ramenés à ceux d’un site donné, ceux dans un répertoire donné ou ceux contenant un chemin d’accès donné. Cette option fonctionne en association avec les paramètres Inclure et Exclure des paramètres URL et l’option Inclure les fichiers secondaires dans les paramètres Général. SiteSucker présente les contraintes de chemin d’accès suivantes :

  • Aucune - SiteSucker ramène le fichier indiqué dans la case de texte URL Web et tous les fichiers liés et tous les sites que ces fichiers lient, etc. Faites attention que cette option peut donner lieu à un déchargement important si laissée en fonctionnement à jamais.
  • Hôte - SiteSucker limite le déchargement aux fichiers sur le serveur du fichier original à ramener. Par exemple, si l’URL Web est http://www.example.com/directory/home.html, ce paramètre limite le déchargement aux URL commençant par http://www.example.com ou https://www.example.com.
  • Hôte + 1 - SiteSucker limite le déchargement aux fichiers sur le serveur du fichier original à ramener (juste comme l’option Hôte ), plus un niveau de fichiers des autres domaines liés à l’hôte original.
  • Sous-domaines - SiteSucker limite le déchargement aux fichiers dans le domaine de second niveau et tous les sous-domaines du fichier original à ramener. Sur base de l’exemple précédent, ce paramètre va ramener les URL commençant par http://www.example.com, https://images.example.com, http://guide.example.com ou https://example.com.
  • Dossier - SiteSucker ne ramène que les fichiers qui sont dans le répertoire du fichier original à ramener. Par exemple, lors du déchargement de https://www.example.com/directory/home.html ou https://www.example.com/directory/ en utilisant ce paramètre, SiteSucker ne va ramener que les fichiers du répertoire répertoire. Mais en cas de déchargement de https://www.example.com/directory, SiteSucker va ramener tous les fichiers de www.example.com sauf si le paramètre Traiter les URL ambigus comme dossiers est activé, auquel cas SiteSucker ne va ramener que les fichiers du répertoire répertoire.
  • Paramètres d’URL - SiteSucker ne ramène que le fichier indiqué dans la case de texte URL et tous les fichiers dont l’URL est autorisé par les paramètres d’URL Inclure et Exclure.

Paramètres Inclure et Exclure des URL

Excluded URLs

Les paramètres d’URL Inclure et Exclure fonctionnent en association avec le paramètre Contrainte d’URL dans les paramètres Général selon les règles suivantes :

  1. Si c’est l’URL original (l’URL indiqué dans la case de texte Champ de texte URL), le fichier est ensuite ramené.
  2. Sinon, si l’URL commence par une des séquences ou coïncide avec une des expressions rationnelles de la table Exclure, le fichier n’est pas ramené.
  3. Sinon, si l’URL rencontre les requis du paramètre Contrainte d’URL, le fichier est ensuite ramené.
  4. Sinon, si l’URL commence par une des séquences ou coïncide avec une des expressions rationnelles de la table Inclure, alors le fichier peut être ramené.
  5. Sinon, si l’option Inclure les fichiers secondaires dans les paramètres Général est activée et l’URL référence un type de fichier non-HTML, le fichier est ensuite ramené.
  6. Sinon, if the Include Supporting Files option in the General settings is on and the URL references a non-HTML file type, alors le fichier peut être ramené.
  7. Sinon, le fichier n’est pas ramené.

Enfin, un fichier qui a un URL autorisé par les paramètres d’URL ne va être ramené que si les exclusions de robot, les paramètres de Limite et les paramètres de Type de fichier permettent de le ramener.

Dans les tables sous les onglets Inclure et Exclure, indiquer des URL absolus (à savoir des URL commençant par http:// ou https://) ou des motifs d’expression rationnelle. Les URL devraient être indiqués tels qu’ils apparaissent dans les champs adresse et recherche de Safari, i.e. sans encodage excepté pour les caractères du code de caractères ISO-8859-1 et les espaces (qui sont encodés comme %20).

Si la séquence est une expression rationnelle, cocher la case Regex correspondante. Lors de l’utilisation des expressions rationnelles, le motif doit correspondre à l’entièreté de l’URL. Par exemple, pour sélectionner les URL qui reprennent “logout”, indiquer l’expression rationnelle “.*logout.*”. La syntaxe des motifs reconnue actuellement est celle spécifiée par l’ICU qui est décrit à Regular Expressions - ICU Documentation.

Pour ajouter une ligne à la table, cliquer sur Plus, indiquer l’URL ou le motif et enfoncer ↩.

Pour supprimer des lignes de la table, les sélectionner dans la table et cliquer sur Minus.

Pour modifier une ligne, faire un double-clic sur une chaîne dans la table, indiquer une nouvelle chaîne et enfoncer ↩.