web crawlers et indexation: quel language pour le web

Eléphant du PHP | 319 Messages

17 janv. 2008, 00:29

bonjour,

je suis assez epate par ce qu'il est possible de faire compte tenu de toute l'information que le web contient. donc: je me suis interesse a Curl. mais de ce que j'ai lu c'est bien pour des petits projets seulement.

je me demandais quel etait le meilleur language pour faire des spiders ou web crawlers pour le web et faire de l'indexation.


merci!
niveau: pas terrible en php mais je me soigne...

ViPHP
ViPHP | 928 Messages

17 janv. 2008, 00:54

Bonsoir,
il te faut un langage qui te permette de faire :
- des requêtes HTTP (donc support des sockets)
- une analyse de la page (avec des regexp par exemple)

Donc a mon avis, perl sera adapté.

ViPHP
ViPHP | 5924 Messages

17 janv. 2008, 01:50

+1, en plus des librairies plutôt nombreuses à ce qu'il paraît, et une bonne intéraction avec le système, c'est utile quand on ne cherche pas à faire du web pur.

Edit : Par contre c'est de l'interprété aussi, donc t'attend pas à des performances de ouf malade…

Eléphant du PHP | 319 Messages

17 janv. 2008, 02:34

bonjour a tous 2 et merci de vos reponses

hum, en l'occurence c'est pour faire du web pur: crawling de sites, indexation du contenu le tout de maniere auto ou au cas par cas (facon comparateur de prix)
niveau: pas terrible en php mais je me soigne...