Limitations
SiteSucker est un programme relativement simple et présente quelques limitations.
SiteSucker n’examine que les fichiers CSS et HTML pour les URL. Lorsque SiteSucker analyse un fichier HTML, il recherche les URL dans les attributs de style et dans les balises suivantes :
<a><area><audio><base><body><embed><form><frame><iframe><img><input><link><meta><object><script><source><style><table><tbody><td><tfoot><th><thead><tr><track><video>
Si un lien est spécifié ailleurs dans le fichier HTML, SiteSucker ne le verra pas.
SiteSucker ignore totalement le JavaScript. Tout lien repris dans du JavaScript ne sera pas vu par SiteSucker et ne sera pas ramené. (SiteSucker va reprendre un avertissement dans le journal de bord pour toute page qui utilise du JavaScript, si l’option Enregistrer les avertissements est activée dans les paramètres du Journal de bord.) Si du JavaScript est incrusté dans du texte HTML, il est possible d’extraire les URL du JavaScript en utilisant le paramètre Motifs ou le paramètre JavaScript dans les paramètres de Page Web, ou en utilisant un script.
Certains sites utilisent JavaScript qui ne fonctionne pas après déchargement. Il en résulte que ces sites ramenés peuvent avoir des caractéristiques qui ne fonctionnent pas comme prévu, des pages Web qui ne s’affichnet pas correctement ou des liens qui ne fonctionnent pas.
SiteSucker ignore les formulaires pour la plupart. Cependant il va ramener l’URL action d’une balise form et l’URL src d’une balise input, et il est alors possible d’utiliser le Navigateur Web pour soumettre des formulaires. Voir Sites protégés par mot de passe pour plus d’information.
SiteSucker ne peut pas ramener des vidéos. Cependant SiteSucker Pro peut ramener des vidéos incrustées, y compris les vidéos incrustées YouTube, Vimeo, WordPress et Wistia. Voir les Questions fréquemment posées pour plus d’information.
A priori, tout répertoire ou fichier interdit par exclusion de robot ne sera pas ramené par SiteSucker. Voir les Exclusions de robot pour plus d’information.
SiteSucker récolte une grande quantité d’information lors de déchargement d’un site. Lorsque le site est très grand, SiteSucker peut utiliser toute la mémoire disponible avant que l’entièreté du site ne soit ramené. Lors du déchargement d’un très grand site site, il y a risque aussi de manquer d’espace de stockage ou d’être soumis aux limitations du système.
