par
@rthur » 28 mars 2018, 20:31
Hello,
Il ne s'agit pas de piratage mais de simple robots qui parcourt le web.
Par ailleurs, le fait de les mettre dans un fichier robots.txt ne va pas du tout les bloquer, mais ça leur indique seulement ta volonté que tu ne souhaites pas qu'ils viennent (ils peuvent décider de ne pas respecter cette volonté).
Si tu veux un robots.txt très restrictif, tu peux partir de l'idée inverse : interdire à tous les robots d'indexer ton site sauf ceux que tu connais (Google, Yahoo, Bing...), voila comment on fait ça :
Code : Tout sélectionner
User-agent: Googlebot
Allow: /
User-agent: msnbot
Allow: /
User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Yahoo-MMCrawler
Allow: /
User-agent: *
Disallow: /
Après si tu veux bloquer réellement l'accès de ces bots, la seule solution est de faire un htaccess ou de modifier ton fichier de conf Apache, ou en dernier recours un bout de code PHP dans tes pages pour regarder l'user-agent et renvoyer une 403
Code : Tout sélectionner
#block bad bots with a 403
SetEnvIfNoCase User-Agent "[email protected]" bad_bot
SetEnvIfNoCase User-Agent "http://mj12bot.com" bad_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>
Hello,
Il ne s'agit pas de piratage mais de simple robots qui parcourt le web.
Par ailleurs, le fait de les mettre dans un fichier robots.txt ne va pas du tout les bloquer, mais ça leur indique seulement ta volonté que tu ne souhaites pas qu'ils viennent (ils peuvent décider de ne pas respecter cette volonté).
Si tu veux un robots.txt très restrictif, tu peux partir de l'idée inverse : interdire à tous les robots d'indexer ton site sauf ceux que tu connais (Google, Yahoo, Bing...), voila comment on fait ça :
[code]User-agent: Googlebot
Allow: /
User-agent: msnbot
Allow: /
User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Yahoo-MMCrawler
Allow: /
User-agent: *
Disallow: /[/code]
Après si tu veux bloquer réellement l'accès de ces bots, la seule solution est de faire un htaccess ou de modifier ton fichier de conf Apache, ou en dernier recours un bout de code PHP dans tes pages pour regarder l'user-agent et renvoyer une 403
[code]#block bad bots with a 403
SetEnvIfNoCase User-Agent "
[email protected]" bad_bot
SetEnvIfNoCase User-Agent "http://mj12bot.com" bad_bot
<Limit GET POST HEAD>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>[/code]