Indexation avec Solr

Lila
Invité n'ayant pas de compte PHPfrance

22 déc. 2010, 21:42

Bonjour,

Je cherche un exemple d'utilisation de Solr.
J'aimerai savoir comment interroger un index Solr depuis php.

Merci d'avance.

Avatar du membre
Modérateur PHPfrance
Modérateur PHPfrance | 8758 Messages

23 déc. 2010, 01:31

Il en faut peu pour être heureux ......

Lila
Invité n'ayant pas de compte PHPfrance

23 déc. 2010, 11:03

Oui mais je n'y comprend rien.

Ok j'ai installé le serveur solr comme indiqué http://www.zoonix.fr/2008/12/08/introdu ... uration-1/. Mais celui-ci ne me permet que d'indexer des fichiers xml, et csv...qu'en est-il des fichier doc, docx et pdf.
Et comment interroger le serveur à partir de php une fois que l'indexation sera mise en place.

J'ai vraiment besoin de réaliser une recherche fulltext sur 40 000 CVs si vous avez d'autres solutions, je suis preneuse.
PS: j'ai déjà tester Zend_Lucene mais malheureuse le nombre de Cvs à indexer me fait défaut.

Merci d'avance pour vos réponse

Avatar du membre
Modérateur PHPfrance
Modérateur PHPfrance | 8758 Messages

23 déc. 2010, 14:00

l'installation est fonctionnelle XML et CSV ?

si oui je pense que ce n'est qu'un soucis de configuration

quand je lis
Indexer un jeu de données en exemple
La distribution de Solr inclue un jeu de documents de test pour l’indexation. Il est possible de les indexer au moyen du package java post.jar.
Ouvrir une console et se placer dans le répertoire « d:\solr\apache-solr\example\exampledocs »
Avec Jetty, lancer la commande :
java -jar post.jar *.xml
Avec Tomcat, lancer la commande :
java -Durl=http://localhost:8080/solr/update -jar post.jar *.xml
Pour obtenir la liste de toutes les options de cet utilitaire, la commande est :
java -jar post.jar -help
je me dit qu'en remplaçant *.xml par *.doc et consor ça devrait fonctionner ?

ensuite pour lucene il indiqué que
Si le texte qui est à indexé est contenu dans des fichiers Excel, Word, PDF ou HTML, c’est de votre ressort d’en extraire de contenu textuel qui sera indexé. Il est possible d’utiliser par exemple pdftotext pour les fichiers PDF et Antiword pour les fichiers Microsoft Word.

Perso je te conseil de voir sur les forum dédié ) solr comment le configurer correctement pour indexer les fichier qui t’intéresse dans un premier temps et d'ensuite voir pour l'utilisation avec php.

Pour l'utilisation avec php il y a deja la doc http://php.net/solr

edit : le coté pecl por php http://pecl.php.net/package/solr

@+
Il en faut peu pour être heureux ......

Lila
Invité n'ayant pas de compte PHPfrance

23 déc. 2010, 17:25

J'ai essayé la commande: java -jar post.jar *.doc

Mais j'ai l'erreur:
SimplePostTool: FATAL: Solr returned an error: Unexpected_character__code_37_in_
prolog_expected____at_rowcol_unknownsource_11