Webcrawler matériel

Eléphant du PHP | 59 Messages

01 mars 2011, 17:08

Salut,

Je suis à la recherche de conseil dans le choix du matériel pour un webcrawler.
Voilà je suis entrain de créer un site comparateur de prix dans un secteur particulier, pour récupérer les données des produits qui seront dans le comparateur, j'ai créer un script php qui visite chaque page de certain sites(avec leur autorisation), dans lesquelles je récupère les informations(nom, description,image, poid, h, l, p ...), et je stocke ces données dans Mysql.

Pour chaque site je devrais visité environ 20.000 pages, et je devrais avoir à terme environ 50 sites a visités, soit environ 1.000.000 pages.
Je pense faire 2 passages chaque jour pour vérifier les quantités disponibles, soit 2.000.000 pages/jour.

Donc si quelqu'un peut me donner quelques conseils, merci d'avance.

ViPHP
ViPHP | 4039 Messages

02 mars 2011, 00:28

Et chaque site est d'accord que tu vienne leur pomper 40.000 pages/jour ?

C'est pas le matériel qui pose problème, mais le logiciel. Php est un peu faible pour la tâche. Il faudrait pouvoir traiter tout ça de manière distribuée et parallèle.
Mais qu'importe. (je suis ici - dernier petit projet)
Berze going social.

Eléphant du PHP | 59 Messages

02 mars 2011, 16:17

Et qu'elle serait la meilleur solution d'après toi?

stefller
Invité n'ayant pas de compte PHPfrance

17 août 2011, 14:23

bjr webcrawler je suis interesser pas ton script.en fait je develop un site marchand actu pour faire juste la comparaison des prix des article,je veut savoir comment ca marche.
merci

Mammouth du PHP | 568 Messages

17 août 2011, 16:22

Il me semble que beaucoup de site propose des web services faisant ce travail (avec des partenariats), plutôt que de faire des scripts ou un robot qui va allez aspirer les pages puis analyser leur contenu, ce qui est à mon gouts très très lourd sur 2 millions de page.
Modifié en dernier par Yosh le 17 août 2011, 18:07, modifié 1 fois.

stefller
Invité n'ayant pas de compte PHPfrance

17 août 2011, 16:47

webcrawker explik moi comment tu procede stp.je ve que tu me mette sur la voie

Avatar du membre
Administrateur PHPfrance
Administrateur PHPfrance | 13231 Messages

17 août 2011, 17:19

stefller, il n'y a personne répondant au pseudo de "webcrawker" ou "webcrawler" dans ce fil
Connaître son ignorance est la meilleure part de la connaissance
Pour un code lisible : n'hésitez pas à sauter des lignes et indenter

twitter - site perso - Github - Zend Certified Engineer