Robot.txt, tout une histoire.

ViPHP
ViPHP | 4674 Messages

02 avr. 2008, 17:51

Sur le blog de Karl Dubost, on trouve beaucoup d'articles qui nous emmène loin de notre petit espace. Beaucoup de poésie, de très belles photos ; en bref, du calme.

Mais on trouve également des articles fort intéressant, comme ce dernier : Robots bien bavards. Il y fait un lien vers son précédent article sur les robots (également très intéressant).
On y apprend que eBay à un dossier disney/ à protéger. Microsoft bloque des fichiers bien particulier, allez savoir pourquoi ... Plus malin : la NSA se sert du fichier robots.txt pour éviter les débordements de bande passante.

Une question me vient à l'esprit soudainement. Et si on ajoutait un <meta /> dans les pages HTML pour remplacer les robots.txt ? Il est vrai que les robots.txt ne sont pas très bons (tant niveau architecture que syntaxe).
« Un handicap est le résultat d'une rencontre entre une déficience ou différence et une incapacité de la société à répondre à celle-ci. »

Hoa : http://hoa-project.net (sur @hoaproject).

Mammouth du PHP | 558 Messages

02 avr. 2008, 19:02

le soucis c'est que la balise metat interdit l'indexation de la page tandisque le robots.txt interdit l'indexation de l'url et cela fait la difference.
si tu utilise un url rewritting
pour remplace une url.
exemple
remplacer
http://www.monsite.com/page.php?id=1
en
http://www.monsite.com/page1.php
si tu utilise la balise metat les deux url vont etre non indexer.
tandit que le robots.txt te permet de ne pas indexer seulement l'url
http://www.monsite.com/page.php?id=1
en esperant avoir répondu a ta question.

ViPHP
ViPHP | 4039 Messages

02 avr. 2008, 19:24

hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.

De plus, tu peux vraiment cibler certains bots, par exemple interdire à google images d'indexer les images sur ton site ou dans un dossier particulier.
Mais qu'importe. (je suis ici - dernier petit projet)
Berze going social.

Mammouth du PHP | 2937 Messages

02 avr. 2008, 22:35

hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.
Enfin, les protéger de l'indexation. ;) Pour les protéger tout court, .htaccess est notre meilleur ami.

ViPHP
ViPHP | 4039 Messages

02 avr. 2008, 23:59

hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.
Enfin, les protéger de l'indexation. ;) Pour les protéger tout court, .htaccess est notre meilleur ami.
ouaip. Et encore, robots ne protège que de ceux qui respectent le robots.txt. htaccess quant a lui..
Mais qu'importe. (je suis ici - dernier petit projet)
Berze going social.

Mammouth du PHP | 558 Messages

03 avr. 2008, 09:59

hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.

De plus, tu peux vraiment cibler certains bots, par exemple interdire à google images d'indexer les images sur ton site ou dans un dossier particulier.
le robots txt ne permet que l'interdiction d'indexer des page ou repertoire de ton site ex.
la tu interdit l'indexation toute les page et repertoire commencant par "pag"

Code : Tout sélectionner

Disallow: /pag
et la tu interdit l'indexation tout le repertoire "repertoire"

Code : Tout sélectionner

Disallow: /repertoire/
mais la page ou le repertoire reste accessible et public.
tu comprend mieux le robots.txt.
je vais essayer de voir si je ne trouve pas un tuto quelque part meilleur que celui que google fourni car il est un peu cafouille pour ceux qui ne connaissent pas le ref.

ViPHP
ViPHP | 4039 Messages

03 avr. 2008, 11:01

c'est gentil haka :roll: ...

Sinon, quelqu'un sait ou en est l'application du standard étendu, pour robots.txt ?

Outre le crawl-delay de microsoft (quoique, les autres doivent le supporter aussi maintenant), j'aimerais bien mettre des request-rate ou autre visit-time (et si je me souviens bien, on pouvait même envoyer des commentaires)

Je suis globalement assez déçu du support qu'on trouve pour robots.txt. Ou c'est peut-être moi qui en attends trop.. j'ai l'impression qu'il n'y a pas de consensus sur la syntaxe complète tu robots.txt, et que chacun fait un peu comme il le sent (un approche très internet, en fait..). Du coup, on a le sentiment qu'il doit y avoir des implémentations compliquées, complètes, mais qui nou échappent complètement..

Sinon, très jolie tentative de l'Elysée.. presque ridicule, je doute que les spammeurs décideraient de respecter le robots.txt.. (doivent pas connaître la magie htaccess à mon avis..)
Mais qu'importe. (je suis ici - dernier petit projet)
Berze going social.

Modérateur PHPfrance
Modérateur PHPfrance | 6037 Messages

03 avr. 2008, 11:11

le robots txt ne permet que l'interdiction d'indexer des page ou repertoire de ton site
Tu indiques par ce fichier, aux moteurs de recherche qui respectent ce fichier, que tu ne souhaite pas indexer ce contenu (vie privée, inintéressant, etc.)
Règle n°2 du webmaster : Toujours commencer par le HTML qu'on veut obtenir....toujours ! :priere:
J'aime apprendre de nouvelles choses.

Mammouth du PHP | 558 Messages

03 avr. 2008, 11:25

Sinon, quelqu'un sait ou en est l'application du standard étendu, pour robots.txt ?
a ma connaissance c'est du standard mais tout evolue tellement vite que cela a pus changer.

cela semble evident mais les gros moteur de recherche le respecte tels que google, msnboat,yahoo etc a condition également de mettre en entete cette ligne

Code : Tout sélectionner

User-agent: *
pour moi le robots texte n'est qu'un outils de referencement rien de plus mais je peut me trompé je ne suis qu'un être humain

de plus les voies de google sont impenetrable...

Mammouth du PHP | 2937 Messages

03 avr. 2008, 22:10

pour moi le robots texte n'est qu'un outils de referencement rien de plus mais je peut me trompé je ne suis qu'un être humain
C'est essentiellement cela. Pour la sécurité, comme je l'ai déjà soufflé, il existe d'autres moyens.

ViPHP
AB
ViPHP | 5818 Messages

06 avr. 2008, 06:28

Je suis globalement assez déçu du support qu'on trouve pour robots.txt. Ou c'est peut-être moi qui en attends trop..
J'en suis arrivé à la même conclusion :wink: De nombreux robots exploitent ces informations à contre sens. Pour les autres j'indique les informations de référencement dans chaque page.
A mon avis, ne te prend pas trop la tête avec ce fichier qui personnellement m'a toujours apporté plus d'inconvénients que d'avantages (je ne l'emploie plus).