par
lord.anonymous » 16 févr. 2007, 17:22
Concrètement alors, à partir d'une URL de départ, on rayonne.
Sur cette URL, on enregistre tous les liens et toutes les adresses email (faisable avec les expressions régulières) dans une BDD.
Ensuite le robot va sur le 1er lien dans la BDD, enregistre tous les liens et emails qu'il trouve dans cette page, etc. Il lit ensuite le 2e lien de la BDD, etc etc.
J'imagine qu'on donne des restrictions genre "uniquement sur tel nom de domaine, tel nom de serveur, telle IP", ou bien une profondeur de recherche (pas plus de 3 liens imbriqués) sinon on enregistre tout le Web.
Autrement pour ma question sur des pages protégés...
J'ai un site avec login/mdp, et l'utilisateur peut avoir accès aux mails d'autres utilisateurs. Ce n'est pas similaire à un forum et les MP car il faut être identifié pour accéder aux fonctions de mail.
Suis-je protégé complètement contre les robots de cette façon là?
Toute la partie visible publiquement du site est protégée contre les robots.
Autre question: peut-on détecter la présence d'un robot sur son site? Si oui, comment?
Concrètement alors, à partir d'une URL de départ, on rayonne.
Sur cette URL, on enregistre tous les liens et toutes les adresses email (faisable avec les expressions régulières) dans une BDD.
Ensuite le robot va sur le 1er lien dans la BDD, enregistre tous les liens et emails qu'il trouve dans cette page, etc. Il lit ensuite le 2e lien de la BDD, etc etc.
J'imagine qu'on donne des restrictions genre "uniquement sur tel nom de domaine, tel nom de serveur, telle IP", ou bien une profondeur de recherche (pas plus de 3 liens imbriqués) sinon on enregistre tout le Web.
Autrement pour ma question sur des pages protégés...
J'ai un site avec login/mdp, et l'utilisateur peut avoir accès aux mails d'autres utilisateurs. Ce n'est pas similaire à un forum et les MP car il faut être identifié pour accéder aux fonctions de mail.
Suis-je protégé complètement contre les robots de cette façon là?
Toute la partie visible publiquement du site est protégée contre les robots.
Autre question: peut-on détecter la présence d'un robot sur son site? Si oui, comment?