Page 1 sur 1

Webcrawler matériel

Posté : 01 mars 2011, 17:08
par alsab
Salut,

Je suis à la recherche de conseil dans le choix du matériel pour un webcrawler.
Voilà je suis entrain de créer un site comparateur de prix dans un secteur particulier, pour récupérer les données des produits qui seront dans le comparateur, j'ai créer un script php qui visite chaque page de certain sites(avec leur autorisation), dans lesquelles je récupère les informations(nom, description,image, poid, h, l, p ...), et je stocke ces données dans Mysql.

Pour chaque site je devrais visité environ 20.000 pages, et je devrais avoir à terme environ 50 sites a visités, soit environ 1.000.000 pages.
Je pense faire 2 passages chaque jour pour vérifier les quantités disponibles, soit 2.000.000 pages/jour.

Donc si quelqu'un peut me donner quelques conseils, merci d'avance.

Re: Webcrawler matériel

Posté : 02 mars 2011, 00:28
par Berzemus
Et chaque site est d'accord que tu vienne leur pomper 40.000 pages/jour ?

C'est pas le matériel qui pose problème, mais le logiciel. Php est un peu faible pour la tâche. Il faudrait pouvoir traiter tout ça de manière distribuée et parallèle.

Re: Webcrawler matériel

Posté : 02 mars 2011, 16:17
par alsab
Et qu'elle serait la meilleur solution d'après toi?

Re: Webcrawler matériel

Posté : 17 août 2011, 14:23
par stefller
bjr webcrawler je suis interesser pas ton script.en fait je develop un site marchand actu pour faire juste la comparaison des prix des article,je veut savoir comment ca marche.
merci

Re: Webcrawler matériel

Posté : 17 août 2011, 16:22
par Yosh
Il me semble que beaucoup de site propose des web services faisant ce travail (avec des partenariats), plutôt que de faire des scripts ou un robot qui va allez aspirer les pages puis analyser leur contenu, ce qui est à mon gouts très très lourd sur 2 millions de page.

Re: Webcrawler

Posté : 17 août 2011, 16:47
par stefller
webcrawker explik moi comment tu procede stp.je ve que tu me mette sur la voie

Re: Webcrawler matériel

Posté : 17 août 2011, 17:19
par zeus
stefller, il n'y a personne répondant au pseudo de "webcrawker" ou "webcrawler" dans ce fil