Bloquer un aspirateur de site

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : Bloquer un aspirateur de site

par Cyrano » 10 juin 2008, 08:58

Il y a un outil qui pourrait t'intéresser joignant les statistiques aux blocage des robots : Crawltrack

Le code est bien crade (tant le PHP que le HTML du reste), mais ça semble fonctionner pas trop mal et les listes de robots sont périodiquement mises à jour.

par Cobaye » 09 juin 2008, 22:06

j'ai encore rien fait ! ca me fausse toutes mes stats !

http://www.youtube.com/watch?v=7MDrJH5FLYU

bon et puis c'est pas un feuilletage renversé mais feuilletage inverser ! c'est pareil q'un feuilletage mais tu inverse la pate et le beurre ! lol

par Hywan » 09 juin 2008, 21:53

(mince, qui m'a dénoncé ?)

Plus sérieusement, pourquoi ça te gène ? Qu'est-ce que tu avais mis en place avant ? Que comptes-tu mettre en plus ? Et sais-tu enfin comment on fait un feuilletage renversé ;-) ?

par Cobaye » 09 juin 2008, 20:44

qui à repasser l'aspirateur sur mon site ? allez qu'il se dénonce ! :tir2:

Bon vais devoir mettre en place une parade

par AB » 28 févr. 2008, 18:27

Le prix du post le plus inutile est attribué à ...
Si c'est un concours, je peux faire mieux :langue:

par Hywan » 28 févr. 2008, 15:59

Sinon, si tu fais la poussière régulièrement, t'auras pas à passer l'aspirateur ... C'est ta faute aussi, à toujours laisser traîner des octets hein ...

:axe: Haaaaaaaa



Le prix du post le plus inutile est attribué à ...

par cf357 » 28 févr. 2008, 10:13

J'ai pensé à cette solution, mais il est ausis facile d'injecter le user-agent qu'on souhaite ... :x
Après ça dépend si sur le site de "Cobaye", les utilisateurs des aspirateurs sont potentiellement plutôt des kikoolol ou plutôt des informaticiens...

par @rthur » 28 févr. 2008, 01:25

Bonjour,

La majorité des aspirateurs de site ne masquent pas leur identité (=user-agent) par défaut, il est donc facile avec un simple .htaccess de les bloquer ou de les renvoyer vers une page spéciale (explicative).
Fais une recherche sur Google avec les termes "htaccess aspirateur" tu devrais trouver pas mal d'exemples avec des listes de robots aspirateurs assez conséquentes.

PS: Je déconseille la solution de h0_noMan à savoir de modifier les lien par des évènements javascripts car ça va bloquer tout le référencement de ton site et géner les visiteurs qui ont désactivés le javascript ou simplement de ceux qui sont adeptes du clic milieu pour ouvrir le lien en question dans un nouvel onglet...

par Sékiltoyai » 27 févr. 2008, 19:56

La meilleure solution reste tout de même le lien que tu places en tête du code source dans tes pages et qui exclue automatiquement le visiteur.
En gros, juste après la balise body, tu fous un lien vers une page spéciale de ton site, sur laquelle tu enregistres l'IP du visiteur pour le bannir de tes autres pages. Et ce lien, tu le caches et tu mets la mention "Ne pas cliquer", histoire que t'aies pas un visiteur qui se fasse ban…

par Cyrano » 27 févr. 2008, 18:42

...mais ça pourrait exclure les gens qui clique tout de suite sur un lien en arrivant sur une page (ce qui m'arrive souvent...)....
Même pas, tu n'auras pas le comportement d'un robot et au bout de très peu de pages, ton manège va cesser, donc on laisse faire sur une dizaine de page et on peut même éventuellement établir un écart type sur les temps de passage par page pour mesurer à peu près la régularité de l'opération entre les pages.

par cf357 » 27 févr. 2008, 18:34

en mode méchant tu lui fait des liens récursif ou des boucles infinies

genre en utilisant un rewrite et en mettant un faux lien qui s'incrémente à chaque affichage mais qui en fait est toujours la même page.

peut etre pas la meilleure solution mais la plus méchante :)
tiens ouais c'est pas bête ça ! En plaçant un lien autogénéré tout au début de la page !
Le seul problème, c'est que c'est succeptible de bien faire monter en charge le serveur si le gars s'arrête pas....

L'idée de Cyrano me semble mieux, mais ça pourrait exclure les gens qui clique tout de suite sur un lien en arrivant sur une page (ce qui m'arrive souvent...).
Peut être en êtant un peu + permissif ...

par Cyrano » 27 févr. 2008, 18:33

Je serais plus subtil en jouant sur une variable de session et une mesure du temps passé sur la page précédente (si la précédente est du même site bien entendu).

5000 pages en deux heures, ça fait 1,44 secondes par pages : ça fait un peu trop rapide pour un lecteur normal. En calculant la différence entre le moment de l'arrivée sur la page et celle de l'arrivée sur la page précédente et en stockant ça, on peut en moins de dix pages réaliser qu'on a pas affaire à un humain et dans ce cas, on l'éjecte avec un header ou quelque chose du genre en ayant pris soin de récupérer son IP histoire de lui ôter la possibilité de revenir aussitôt.

Enfin bon, je dis ça, c'est une idée que j'explorerais personnellement :-k

par zigz4g » 27 févr. 2008, 18:23

Ajouter un login / pass :?

par Nagol » 27 févr. 2008, 18:22

en mode méchant tu lui fait des liens récursif ou des boucles infinies

genre en utilisant un rewrite et en mettant un faux lien qui s'incrémente à chaque affichage mais qui en fait est toujours la même page.

peut etre pas la meilleure solution mais la plus méchante :)

par h0_noMan » 27 févr. 2008, 18:14

Remplacer tout tes liens <a href="..."> par des evenenement onclick <a href="#" onClick="window.location='http://monsite.com'">

Je sais que cela peut être lourds mais cela les bloquent.