Moteur de recherche interne avec création d'un index

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : Moteur de recherche interne avec création d'un index

Re: Moteur de recherche interne avec création d'un index

par Berzemus » 09 sept. 2010, 22:05

... un bon vrai moteur de recherche bien poilu ...
Ça mériterait peut-être une éPHPilation vigoureuse un truc pareil :mrgreen:
Justement, je comptais écrire un sujet sur l'intégration de xapian à Php, puisque c'est quand même assez simple tout en étant très efficace, mais j'attends d'avoir un peu d'heures de libre pour m'y mettre :wink:

Re: Moteur de recherche interne avec création d'un index

par Cyrano » 09 sept. 2010, 19:10

... un bon vrai moteur de recherche bien poilu ...
Ça mériterait peut-être une éPHPilation vigoureuse un truc pareil :mrgreen:

Re: Moteur de recherche interne avec création d'un index

par Superpilou » 09 sept. 2010, 15:27

http://tutorialzine.com/2010/09/google- ... ax-jquery/

Un article qui pourrait peut être t'aider.

Re: Moteur de recherche interne avec création d'un index

par Berzemus » 08 sept. 2010, 22:26

Au fait, ton site, il est stocké dans quoi ? des fichiers ? une base de données ?

Moi je propose de passer par indexeur type Xapian, un bon vrai moteur de recherche bien poilu, dans lequel tu indexes ce que tu veux.

Re: Moteur de recherche interne avec création d'un index

par stealth35 » 08 sept. 2010, 20:28

Ok, j'utiliserai peut être DOMDocument, je vais allez voir la doc.
Et donc avec une condition qui verifie si le lien a déjà été parsé je devrais arriver à un moment ou il ne trouve plus de lien à visiter ?
Vaut-il mieux que je récupère d'abord tous les liens à parser et puis ensuite revisiter les pages pour récupérer mon contenu ou alors je récupère au fur et à mesure ?
au fur et a mesure, sinon tu parseras la page 2 fois (1 fois pour les lien 2 fois pour ton texte)

Re: Moteur de recherche interne avec création d'un index

par Toons43 » 08 sept. 2010, 19:38

Ok, j'utiliserai peut être DOMDocument, je vais allez voir la doc.
Et donc avec une condition qui verifie si le lien a déjà été parsé je devrais arriver à un moment ou il ne trouve plus de lien à visiter ?
Vaut-il mieux que je récupère d'abord tous les liens à parser et puis ensuite revisiter les pages pour récupérer mon contenu ou alors je récupère au fur et à mesure ?

Re: Moteur de recherche interne avec création d'un index

par stealth35 » 08 sept. 2010, 19:19

pour parser du DOM c'est avec DOMDocument, ca sera plus simple et plus rapide qu'avec des regexp, avec DomDocument tu peux recupere aussi tout les liens il suffira des les parcourir, et faire une condition pour cexu ou il a deja regardé

Moteur de recherche interne avec création d'un index

par Toons43 » 08 sept. 2010, 17:59

Bonjour à tous,

J'essai de créer un moteur de recherche interne pour mon site et en fouillant sur Internet j'ai vu que la meilleure technique est de créer un script qui crawl mon site pour récupérer les urls des pages et qui récupère le contenu intéressant pour ensuite mettre en base de donnée l'url et le contenu affiné. J'ai trouvé quelques scripts tout fait tel que phpDig mais je ne comprend pas vraiment comment les installer et puis ça risque d'être difficile à intégrer avec mon admin.
Pour ce qui est de récupérer sur une page les urls à cawler et le contenu intéressant pour le mettre en base de donnée ça ne pose pas de problème, avec des REGEX j'arrive à obtenir ce que je veux.
Par contre je voudrais que le script puisse automatiquement passer d'une page à l'autre et faire le boulot, mais je ne vois pas trop comment faire pour qu'il ne réindexe pas des pages qu'il a déjà indexer sur d'autres pages et puis comment éviter une boucle sans fin, c'est à dire comment le script peut savoir qu'il a fini de scroller le site ?

Je vous remercie d'avance pour vos idées