par
Toons43 » 08 sept. 2010, 17:59
Bonjour à tous,
J'essai de créer un moteur de recherche interne pour mon site et en fouillant sur Internet j'ai vu que la meilleure technique est de créer un script qui crawl mon site pour récupérer les urls des pages et qui récupère le contenu intéressant pour ensuite mettre en base de donnée l'url et le contenu affiné. J'ai trouvé quelques scripts tout fait tel que phpDig mais je ne comprend pas vraiment comment les installer et puis ça risque d'être difficile à intégrer avec mon admin.
Pour ce qui est de récupérer sur une page les urls à cawler et le contenu intéressant pour le mettre en base de donnée ça ne pose pas de problème, avec des REGEX j'arrive à obtenir ce que je veux.
Par contre je voudrais que le script puisse automatiquement passer d'une page à l'autre et faire le boulot, mais je ne vois pas trop comment faire pour qu'il ne réindexe pas des pages qu'il a déjà indexer sur d'autres pages et puis comment éviter une boucle sans fin, c'est à dire comment le script peut savoir qu'il a fini de scroller le site ?
Je vous remercie d'avance pour vos idées
Bonjour à tous,
J'essai de créer un moteur de recherche interne pour mon site et en fouillant sur Internet j'ai vu que la meilleure technique est de créer un script qui crawl mon site pour récupérer les urls des pages et qui récupère le contenu intéressant pour ensuite mettre en base de donnée l'url et le contenu affiné. J'ai trouvé quelques scripts tout fait tel que phpDig mais je ne comprend pas vraiment comment les installer et puis ça risque d'être difficile à intégrer avec mon admin.
Pour ce qui est de récupérer sur une page les urls à cawler et le contenu intéressant pour le mettre en base de donnée ça ne pose pas de problème, avec des REGEX j'arrive à obtenir ce que je veux.
Par contre je voudrais que le script puisse automatiquement passer d'une page à l'autre et faire le boulot, mais je ne vois pas trop comment faire pour qu'il ne réindexe pas des pages qu'il a déjà indexer sur d'autres pages et puis comment éviter une boucle sans fin, c'est à dire comment le script peut savoir qu'il a fini de scroller le site ?
Je vous remercie d'avance pour vos idées