Bloquer des logs via robots.txt ou htaccess

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : Bloquer des logs via robots.txt ou htaccess

Re: Bloquer des logs via robots.txt ou htaccess

par @rthur » 28 mars 2018, 20:31

Hello,

Il ne s'agit pas de piratage mais de simple robots qui parcourt le web.
Par ailleurs, le fait de les mettre dans un fichier robots.txt ne va pas du tout les bloquer, mais ça leur indique seulement ta volonté que tu ne souhaites pas qu'ils viennent (ils peuvent décider de ne pas respecter cette volonté).

Si tu veux un robots.txt très restrictif, tu peux partir de l'idée inverse : interdire à tous les robots d'indexer ton site sauf ceux que tu connais (Google, Yahoo, Bing...), voila comment on fait ça :

Code : Tout sélectionner

User-agent: Googlebot Allow: / User-agent: msnbot Allow: / User-agent: Mediapartners-Google* Allow: / User-agent: Googlebot-Image Allow: / User-agent: Yahoo-MMCrawler Allow: / User-agent: * Disallow: /

Après si tu veux bloquer réellement l'accès de ces bots, la seule solution est de faire un htaccess ou de modifier ton fichier de conf Apache, ou en dernier recours un bout de code PHP dans tes pages pour regarder l'user-agent et renvoyer une 403

Code : Tout sélectionner

#block bad bots with a 403 SetEnvIfNoCase User-Agent "[email protected]" bad_bot SetEnvIfNoCase User-Agent "http://mj12bot.com" bad_bot <Limit GET POST HEAD> Order Allow,Deny Allow from all Deny from env=bad_bot </Limit>

Bloquer des logs via robots.txt ou htaccess

par blinz » 27 mars 2018, 21:10

Salut tout le monde voilà j'ai un soucis de piratage et je vois que dans mes logs j'ai des truc un peu bizzar comme :

54.236.49.50 - - [26/Mar/2018:23:43:53 +0200] "GET /sortie.php HTTP/1.1" 200 9166 "-" "crawler ([email protected])" "www.lasortie.fr"


144.76.6.230 - - [26/Mar/2018:02:27:31 +0200] "GET /sortie.php/le-lac-des-cygnes/cin%C3%A9ma/brumath/482501.html HTTP/1.1" 302 241 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)" "lasortie.fr"

Donc j'aimerais bloquer les 2 en questions :
mj12bot.com
[email protected]

Pour le 1er je dirais tout simplement de créer les lignes dans le robots.txt:
User-agent: MJ12bot
Disallow: /


Mais pour l'autre je ne vois pas