Limitations

SiteSucker est un programme relativement simple et présente quelques limitations.

Lorsque SiteSucker analyse du HTML, il examine uniquement les balises suivantes :

  • <a>
  • <area>
  • <body>
  • <div>
  • <embed>
  • <frame>
  • <iframe>
  • <img>
  • <input>
  • <link>
  • <meta>
  • <object>
  • <script>
  • <style>
  • <table>
  • <td>
  • <th>
  • <tr>

Si un lien est repris dans une autre balise, SiteSucker ne le verra pas.

SiteSucker ignore totalement le JavaScript. Tout lien repris dans du JavaScript ne sera pas vu par SiteSucker et ne sera pas ramené. (Si l'option Enregistrer les avertissements est activée dans les paramètres de déchargement, SiteSucker va reprendre un avertissement dans le journal de bord pour toute page qui utilise du JavaScript.)

SiteSucker analyse les fichiers Flash (SWF) pour les liens de texte simple enchâssés, mais il ne peut détecter que les liens vers des fichiers qui ont une des extensions suivantes : html, swf, mp3, sit, zip, mov, gif, jpg, png, doc ou txt. SiteSucker ne peut localiser les fichiers Flash et il n'examine pas les autres fichiers de média pour des liens enchâssés.

A priori, SiteSucker respecte les exclusions de robots.txt et les balises META Robots. En conséquence, tout répertoire ou page interdit par exclusion de robot ne sera pas ramené par SiteSucker. Cependant ce comportement peut être contourné par l'option Ignorer les exclusions de robot dans l'onglet Général des paramètres de déchargement.