recherche dans le contenu d'un pdf

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : recherche dans le contenu d'un pdf

Re: recherche dans le contenu d'un pdf

par Berzemus » 20 déc. 2011, 17:21

En perl il y a un module qui permet facilement d'extraire du contenu texte d'un PDF, peut-être que la même chose existe en PHP.

Du reste, avec ce texte, tu peux l'indexer avec un outil tel que Xapian (qui existe en tant que module PHP), et tu auras un super moteur de recherche sur ton contenu PDF. Ou alors passer par la recherche full-text de MySQL.

Re: recherche dans le contenu d'un pdf

par caramba » 20 déc. 2011, 17:05

Merci pour cette piste... Je n'ai rien contre Google :) mais j'aimerais, dans la mesure du possible, que le moteur de recherche soit interne au site.

D'autant plus que ce développement pourra me servir pour d'autres applications et sites que je gère...

Re: recherche dans le contenu d'un pdf

par Cricks » 20 déc. 2011, 16:50

En fait, tu peux te servir de la puissance de Google: tu inséres le formulaire de recherche Google sur une des pages de ton site.

admettons que tu recherches "Jean-Marc Pimpon 2003" dans un de tes fichiers pdf, comme requête tu fais :

site:tonsite.com filetype:pdf Jean-Marc Pimpon 2003

Il te suffit alors de parser la page html générée par google pour en extraire les éléments dont tu as besoin et les enregistrer si besoin.

recherche dans le contenu d'un pdf

par caramba » 20 déc. 2011, 11:30

Bonjour,

Je voudrais mettre en place un moteur de recherche pour des documents pdf qui se trouvent dans ma base de données.

Le site en question est : http://www.sapiniere.be
Les documents sont les PV de réunion du Comité scolaire

Les documents sont répertoriés dans une table avec un titre et une description, et faire une recherche sur ces informations ne me pose aucun problème, mais j'aimerais pousser la recherche dans le contenu même du fichier pdf.

Donc, en gros, j'imagine qu'il faudrait ouvrir le pdf et analyser son contenu texte... Mais comment procéder ?

J'ai déjà fait quelques recherches sur le Net, mais je ne trouve rien de vraiment concluant :?

Merci d'avance pour toute l'aide que vous pourrez m'apporter !