Webcrawler matériel

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : Webcrawler matériel

Re: Webcrawler matériel

par zeus » 17 août 2011, 17:19

stefller, il n'y a personne répondant au pseudo de "webcrawker" ou "webcrawler" dans ce fil

Re: Webcrawler

par stefller » 17 août 2011, 16:47

webcrawker explik moi comment tu procede stp.je ve que tu me mette sur la voie

Re: Webcrawler matériel

par Yosh » 17 août 2011, 16:22

Il me semble que beaucoup de site propose des web services faisant ce travail (avec des partenariats), plutôt que de faire des scripts ou un robot qui va allez aspirer les pages puis analyser leur contenu, ce qui est à mon gouts très très lourd sur 2 millions de page.

Re: Webcrawler matériel

par stefller » 17 août 2011, 14:23

bjr webcrawler je suis interesser pas ton script.en fait je develop un site marchand actu pour faire juste la comparaison des prix des article,je veut savoir comment ca marche.
merci

Re: Webcrawler matériel

par alsab » 02 mars 2011, 16:17

Et qu'elle serait la meilleur solution d'après toi?

Re: Webcrawler matériel

par Berzemus » 02 mars 2011, 00:28

Et chaque site est d'accord que tu vienne leur pomper 40.000 pages/jour ?

C'est pas le matériel qui pose problème, mais le logiciel. Php est un peu faible pour la tâche. Il faudrait pouvoir traiter tout ça de manière distribuée et parallèle.

Webcrawler matériel

par alsab » 01 mars 2011, 17:08

Salut,

Je suis à la recherche de conseil dans le choix du matériel pour un webcrawler.
Voilà je suis entrain de créer un site comparateur de prix dans un secteur particulier, pour récupérer les données des produits qui seront dans le comparateur, j'ai créer un script php qui visite chaque page de certain sites(avec leur autorisation), dans lesquelles je récupère les informations(nom, description,image, poid, h, l, p ...), et je stocke ces données dans Mysql.

Pour chaque site je devrais visité environ 20.000 pages, et je devrais avoir à terme environ 50 sites a visités, soit environ 1.000.000 pages.
Je pense faire 2 passages chaque jour pour vérifier les quantités disponibles, soit 2.000.000 pages/jour.

Donc si quelqu'un peut me donner quelques conseils, merci d'avance.