Les pièges à araignées sont un phénomène de bouclage qui a été créé intentionnellement ou accidentellement pour tromper ou piéger les araignées. L’objectif principal de cette technique est d’empêcher les robots d’explorer les sites Web en profondeur.
Pièges à araignées involontaires ou volontaires
La plupart du temps, un piège à araignées provient d’une source involontaire. Il peut, par exemple, être causé par :
- Un calendrier dont l’hyperlien renvoie continuellement au jour précédent/suivant ou à l’année civile précédente/suivante ;
- Une URL qui fait tourner en boucle des répertoires (… );
- Des identifiants de session différents basés sur les cookies pour chaque visite du crawler ;
- Les documents contenant une quantité énorme de caractères font planter l’analyseur lexical du moteur de recherche et d’autres outils.
Un piège à crawler peut être mis en place pour attraper le robot spammeur qui tentera d’ignorer le piège et de bloquer l’accès à des zones spécifiques d’un site. L’intention derrière ce piège est de réduire l’efficacité de l’araignée, en utilisant ses ressources.
Il existe de nombreux “pièges à araignées” qui peuvent être identifiés automatiquement. Cependant, de nouvelles catégories apparaissent constamment et il n’existe pas encore de méthode pour les détecter. D’un autre côté, les crawlers des moteurs de recherche ne sont pas très vulnérables aux pièges puisqu’ils se connectent au même serveur une fois par seconde. Ils déplacent également leurs requêtes entre différents hôtes.