Page 1 sur 1

Robot.txt, tout une histoire.

Posté : 02 avr. 2008, 17:51
par Hywan
Sur le blog de Karl Dubost, on trouve beaucoup d'articles qui nous emmène loin de notre petit espace. Beaucoup de poésie, de très belles photos ; en bref, du calme.

Mais on trouve également des articles fort intéressant, comme ce dernier : Robots bien bavards. Il y fait un lien vers son précédent article sur les robots (également très intéressant).
On y apprend que eBay à un dossier disney/ à protéger. Microsoft bloque des fichiers bien particulier, allez savoir pourquoi ... Plus malin : la NSA se sert du fichier robots.txt pour éviter les débordements de bande passante.

Une question me vient à l'esprit soudainement. Et si on ajoutait un <meta /> dans les pages HTML pour remplacer les robots.txt ? Il est vrai que les robots.txt ne sont pas très bons (tant niveau architecture que syntaxe).

Posté : 02 avr. 2008, 19:02
par hakazizi
le soucis c'est que la balise metat interdit l'indexation de la page tandisque le robots.txt interdit l'indexation de l'url et cela fait la difference.
si tu utilise un url rewritting
pour remplace une url.
exemple
remplacer
http://www.monsite.com/page.php?id=1
en
http://www.monsite.com/page1.php
si tu utilise la balise metat les deux url vont etre non indexer.
tandit que le robots.txt te permet de ne pas indexer seulement l'url
http://www.monsite.com/page.php?id=1
en esperant avoir répondu a ta question.

Posté : 02 avr. 2008, 19:24
par Berzemus
hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.

De plus, tu peux vraiment cibler certains bots, par exemple interdire à google images d'indexer les images sur ton site ou dans un dossier particulier.

Posté : 02 avr. 2008, 22:35
par Victor BRITO
hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.
Enfin, les protéger de l'indexation. ;) Pour les protéger tout court, .htaccess est notre meilleur ami.

Posté : 02 avr. 2008, 23:59
par Berzemus
hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.
Enfin, les protéger de l'indexation. ;) Pour les protéger tout court, .htaccess est notre meilleur ami.
ouaip. Et encore, robots ne protège que de ceux qui respectent le robots.txt. htaccess quant a lui..

Posté : 03 avr. 2008, 09:59
par hakazizi
hum.. je crois surtout qu'avec robots.txt, tu peux "protéger" des répertoires.

De plus, tu peux vraiment cibler certains bots, par exemple interdire à google images d'indexer les images sur ton site ou dans un dossier particulier.
le robots txt ne permet que l'interdiction d'indexer des page ou repertoire de ton site ex.
la tu interdit l'indexation toute les page et repertoire commencant par "pag"

Code : Tout sélectionner

Disallow: /pag
et la tu interdit l'indexation tout le repertoire "repertoire"

Code : Tout sélectionner

Disallow: /repertoire/
mais la page ou le repertoire reste accessible et public.
tu comprend mieux le robots.txt.
je vais essayer de voir si je ne trouve pas un tuto quelque part meilleur que celui que google fourni car il est un peu cafouille pour ceux qui ne connaissent pas le ref.

Posté : 03 avr. 2008, 11:01
par Berzemus
c'est gentil haka :roll: ...

Sinon, quelqu'un sait ou en est l'application du standard étendu, pour robots.txt ?

Outre le crawl-delay de microsoft (quoique, les autres doivent le supporter aussi maintenant), j'aimerais bien mettre des request-rate ou autre visit-time (et si je me souviens bien, on pouvait même envoyer des commentaires)

Je suis globalement assez déçu du support qu'on trouve pour robots.txt. Ou c'est peut-être moi qui en attends trop.. j'ai l'impression qu'il n'y a pas de consensus sur la syntaxe complète tu robots.txt, et que chacun fait un peu comme il le sent (un approche très internet, en fait..). Du coup, on a le sentiment qu'il doit y avoir des implémentations compliquées, complètes, mais qui nou échappent complètement..

Sinon, très jolie tentative de l'Elysée.. presque ridicule, je doute que les spammeurs décideraient de respecter le robots.txt.. (doivent pas connaître la magie htaccess à mon avis..)

Posté : 03 avr. 2008, 11:11
par mere-teresa
le robots txt ne permet que l'interdiction d'indexer des page ou repertoire de ton site
Tu indiques par ce fichier, aux moteurs de recherche qui respectent ce fichier, que tu ne souhaite pas indexer ce contenu (vie privée, inintéressant, etc.)

Posté : 03 avr. 2008, 11:25
par hakazizi
Sinon, quelqu'un sait ou en est l'application du standard étendu, pour robots.txt ?
a ma connaissance c'est du standard mais tout evolue tellement vite que cela a pus changer.

cela semble evident mais les gros moteur de recherche le respecte tels que google, msnboat,yahoo etc a condition également de mettre en entete cette ligne

Code : Tout sélectionner

User-agent: *
pour moi le robots texte n'est qu'un outils de referencement rien de plus mais je peut me trompé je ne suis qu'un être humain

de plus les voies de google sont impenetrable...

Posté : 03 avr. 2008, 22:10
par Victor BRITO
pour moi le robots texte n'est qu'un outils de referencement rien de plus mais je peut me trompé je ne suis qu'un être humain
C'est essentiellement cela. Pour la sécurité, comme je l'ai déjà soufflé, il existe d'autres moyens.

Posté : 06 avr. 2008, 06:28
par AB
Je suis globalement assez déçu du support qu'on trouve pour robots.txt. Ou c'est peut-être moi qui en attends trop..
J'en suis arrivé à la même conclusion :wink: De nombreux robots exploitent ces informations à contre sens. Pour les autres j'indique les informations de référencement dans chaque page.
A mon avis, ne te prend pas trop la tête avec ce fichier qui personnellement m'a toujours apporté plus d'inconvénients que d'avantages (je ne l'emploie plus).