Page 1 sur 1
Extraire texte d'un PDF
Posté : 06 févr. 2009, 12:15
par edison1986
Bonjour,
Comme indiquer dans le sujet je souhaite extraire le texte d'un PDF automatiquement en PHP, étant sur un serveur mutualisé je n'ai pas la possibilité d'installer quelque chose sur le serveur.
Merci de votre aide.
Posté : 06 févr. 2009, 14:33
par albat
Déjà, il faut vérifier si le PDF te l'autorise.
Le format PDF permet plusieurs niveuax de sécurité
et il est possible à l'auteur d'interdire la copie, l'impression,...
d'un document PDF afin de le protéger.
Posté : 06 févr. 2009, 15:00
par edison1986
Les pdf uploader via le site ne sont pas protégés, car celui qui les upload les fait.
[Note : ce message a été posté de manière anonyme avant d'être réattribué à son auteur]
Posté : 23 févr. 2009, 23:08
par Invité
Bonsoir,
j'avais à l'époque transformé mon pdf en fichier txt et lu le contenu du txt pour effectuer une recherche.
C'était il y a quelques années déjà, il doit y avoir de nouveaux outils maintenant je suppose... !
Posté : 24 févr. 2009, 00:08
par @rthur
Bonjour,
Sans vouloir paraitre défaitiste, il me semble que cela est impossible si tu ne peux rien installer sur ton serveur.
Si tu peux installer qqchose sur ton serveur, pdftotext semble être une solution envisageable:
http://en.wikipedia.org/wiki/Pdftotext
Posté : 24 févr. 2009, 11:05
par agité
Salut à toi !
Et bien j'ai rencontrer un suisse au forum AFUP qui m'as donné de precieux conseil pour le traitement de PDF, je te c/c son mail :
Utilitaires PDF en ligne de commande: pdftk
(
http://www.accesspdf.com/pdftk/)
Existe pour Windows et Linux, permet de convertir du postscript en texte, de
merger 2 PDF, etc.
Tu peux par exemple convertir les PDF en texte et mettre ensuite le contenu
dans ta base MySQL.
Index spécial pour MySQL (FULLTEXT),
http://dev.mysql.com/doc/refman/5.0/fr/ ... earch.html
Ceci va te permettre de faire des recherches de pertinence (genre Google)
dans les champs textes
Bon courage.