Eléphanteau du PHP |
20 Messages
17 sept. 2009, 11:48
Bonjour à tous,
Dans le cadre d'un petit développement perso, j'aurais besoin d'écrire un script (en PHP) qui permet de me dire tout seul, en analysant l'article, si deux articles parlent de la même chose, c'est à dire qu'ils traitent du même sujet. Comment?
Ma première piste de réflexion a été de compter le nombre d'occurrences de tous les mots (sauf mots fréquents: de, la les, donc, etc.) dans chacun des articles, de ne garder que ceux qui étaient répétés au moins quatre fois, et ensuite de comparer les mots récurrent de chaque article. S'il y a au moins 3 mots récurrents en communs dans les deux articles, alors ils portent sur le même sujet.
Ça marche à peu près, mais la fiabilité est de l'ordre de 70% environ.
J'aimerais donc avoir vos réflexions ou pistes de réflexion sur cette façon de procéder:
Est-ce la bonne façon de procéder? Comment augmenter sa fiabilité?
Si vous n'auriez pas fait comme moi, comment auriez-vous fait?