Recherche dans un pdf avec un php

Mammouth du PHP | 687 Messages

25 janv. 2011, 18:11

Bonjour,
est-ce que quelqu'un connait le moyen de faire une recherche multi-critères dans un fichier pdf contenu dans un répertoire de mon site....?
Exemple:
Je cherche une activité (restauration) grace à un formulaire de recherche, le bouton envoyer va chercher les résultats dans le fichiers pdf (fichier unique regroupant plusieurs pages) et affiche le ou les résultats dans un html ou php...

Merci par avance.

Cdl.

Eléphant du PHP | 129 Messages

25 janv. 2011, 18:49

Slt,
Google est ton ami ICI

Mammouth du PHP | 687 Messages

25 janv. 2011, 18:53

Merci.
Mais je ne l'aime pas! il est méchant car je comprends pas ce qu'il raconte. J'avais vu ce post mais il n'y a pas trop d'infos dedans... :(

Merci quand même

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 18:53

Slt,
Google est ton ami ICI
c'est plus compliquer que ca, lui il veut rechercher du texte dans des PDF, techniquement ca se fait avec Lucene (Zend_Lucene), mais il faut convertir de PDF en texte avant

Mammouth du PHP | 687 Messages

25 janv. 2011, 18:59

Merci pour ta réponse.
ça me parait être encore bien galère ce truc.
A ton avis qu'est ce qui te semble être le plus simple?
Le fichier pdf sera tjs dans le même répertoire et portera toujours le même nom... Comment faire pour juste afficher les résultats d'une recherche?
Doit-on d'abord envoyer le pdf à la base? (problème la structure du pdf est composée de plusieurs fiches qui ne sont pas tout le temps identiques...)

Il doit bien y avoir un moyen simplifier,non?

Merci en tout cas...

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 19:08

Merci pour ta réponse.
ça me parait être encore bien galère ce truc.
A ton avis qu'est ce qui te semble être le plus simple?
Le fichier pdf sera tjs dans le même répertoire et portera toujours le même nom... Comment faire pour juste afficher les résultats d'une recherche?
Doit-on d'abord envoyer le pdf à la base? (problème la structure du pdf est composée de plusieurs fiches qui ne sont pas tout le temps identiques...)

Il doit bien y avoir un moyen simplifier,non?

Merci en tout cas...
si tu veux faire une recherche dans le texte a l'intérieur des PDF y'a pas trop le choix, si c'est juste une recherche avec le nom du fichier, c'est assez simple

Mammouth du PHP | 687 Messages

25 janv. 2011, 19:12

Grace à pdf pro j'ai réussi à transformer mon fichier pdf en fichier html, est-ce que c'est plus simple à faire maintenant?

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 19:21

Grace à pdf pro j'ai réussi à transformer mon fichier pdf en fichier html, est-ce que c'est plus simple à faire maintenant?
en html oui c'est plus simple, plus cas ajouter ton texte dans une index, je t'invite a lire la doc pour savoir comment faire :
http://framework.zend.com/manual/fr/zen ... ucene.html

Mammouth du PHP | 687 Messages

25 janv. 2011, 19:22

ok merci. je vais regarder tout ça et essayer de comprendre...

Mammouth du PHP | 687 Messages

25 janv. 2011, 20:39

Bon ça me paraît bien complexe ce système...

J'ai créé une table avec ces champs:
ofr_reference
ofr_departement
ofr_ville_organisme
ofr_organisme
ofr_email_organisme
ofr_site_organisme
ofr_proc_passation
ofr_objet_marche
ofr_lieu_dossier
ofr_date_lim_candidature
ofr_renseignements
ofr_date_emission

y a t'il un moyen de récupérer les informations contenu dans le html et les envoyer vers cette table ?

Exemple d'une fiche :
<P align="center"><FONT size="+1" color="#000000"></B>.................................<FONT size="+1" color="#000000"></B>. 
</P>
<P>R&eacute;f&eacute;rence du BOAMP : 11-15215 - Annonce publi&eacute;e le 25 janvier 2011 - BOAMP n&deg; 17A, Annonce n&deg; 107 </P>
<P>-Annonce publi&eacute;e le 25 janvier 2011 - BOAMP n&deg; 17B, Annonce n&deg; 123 </P>
<P><I>Nom et adresse officiels de l'organisme acheteur :</I> IHFB. 
Correspondant : bernad erick, iinstitut hospitalier franco britannique 4 rue kl&eacute;ber, 92300 Levallois Perret, t&eacute;l. : 01-4759-59-47, courriel : [email protected]. 
</P>
<P><I>Objet du march&eacute; : </I><B>remplacement du poste de livraison et des transformateurs Hta/Bt<B>. 
</B><I>Type de march&eacute; de travaux :</I> ex&eacute;cution</B>. 
<I>Caract&eacute;ristiques principales </I><I>: 
</I></P>

<P>Refus des variantes. 
Conditions de participation : 
<I>Situation juridique - r&eacute;f&eacute;rences requises :</I> r&eacute;ference sur m&ecirc;me op&eacute;ration. 
<I>R&eacute;f&eacute;rence professionnelle et capacit&eacute; technique - r&eacute;f&eacute;rences requises :</I> r&eacute;ference sur m&ecirc;me op&eacute;ration. 
<I>Type de proc&eacute;dure :</I> proc&eacute;dure adapt&eacute;e. 
<I>Date limite de r&eacute;ception des candidatures :</I> 27 janvier 2011, &agrave; 16 heures. 
<I>Date limite de r&eacute;ception des offres :</I> 11 f&eacute;vrier 2011, &agrave; 12 heures. 
<I>Date d'envoi du pr&eacute;sent avis &agrave; la publication :</I> 20 janvier 2011. 
</P>
Les fiches ont tous la même base d'informations mais certaines ont des infos supplémentaires...

Merci beaucoup!!!!

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 20:46

il faut stocker ton texte dans un type genre contents, mais je te conseil avant de faire un strip_tags, et un html_entity_decode sur ton texte :wink:

Mammouth du PHP | 687 Messages

25 janv. 2011, 20:55

par contre il y a 330 fiches dans ce html... ça change quelque chose?

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 21:31

par contre il y a 330 fiches dans ce html... ça change quelque chose?
il faudrait diviser les fiches, mais a la base du PDF y'a pas une base de données ? sinon c'est possible moyen de recrée ca, en gros t'as une page pdf par fichier ?

Mammouth du PHP | 687 Messages

25 janv. 2011, 21:35

En gros j'avais 330 fiches réuni dans 33 fichiers pdf j'ai donc réuni ces fichiers en un seul pdf que j'ai transformé en un fichier html pour rendre l'opération plus simple...

ViPHP
ViPHP | 5462 Messages

25 janv. 2011, 21:36

En gros j'avais 330 fiches réuni dans 33 fichiers pdf j'ai donc réuni ces fichiers en un seul pdf que j'ai transformé en un fichier html pour rendre l'opération plus simple...
et le but de la recherche est de retourner les informations ou le/les fichier(s) PDF correspondant ?