Je suis en train de "m'amuser" à faire un petit moteur de recherche simple avec un petit crawler à côté.
C'est une petite expérience pour apprendre concrètement les regex et les requêtes avec like qui me terrorisaient un peu jusqu'à maintenant
Le point qui me fait me poser le plus de questions et comment enregistrer le plus proprement possible les données ?
Actuellement je fait simplement un strip_tags pour supprimer un maximum de balises lorsque le crawler lit la page. Je n'obtient pas toujours un résultat impeccable car il arrive qu'une multitude d'espaces ou de retours chariots trainent un peu partout.
Faut-il abuser des regex pour nettoyer au maximum ou y'a t'il une technique particulière et autre pour stocker les données quand elles sont destinées à un moteur de recherche ?