par
ant » 19 avr. 2006, 16:11
Vite fait:
Ca sert à rien de récupérer tout ce qu'il y a entre <body> directement car ensuite faudrait trier les informations pertinentes.
En premier, m'est avis de revoir l'ensemble de la structure de tes pages en placant des éléments html cohérents.
balises <p> pour paragraphes, des balises <ul> pour les listes etc.
Ensuite, à ce moment là, tu peux créer une routine d'extraction de données qui récupèra le contenu entre ces éléments précis.
Ces données, tu peux ensuite les classer par thèmes par exemple et t'organiser à partir de ça.
Par ailleurs, lorsque tu dis:
théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page
Je pense que c'est une erreur de conception. Il faut avant tout réorganiser ton site. Il est essentiel de revoir l'architecture de ce dernier et créer un modèle viable sans refaire une copie conforme page par page.
En fait, Il y a un gros travail de fond au niveau organisationnel et structurel avant de faire quoi ce soit au niveau du code ou de la modélisation de la BDD.
Mais ne sachant pas grand chose de ton site, difficile d'en dire plus sans m'avancer mais, une refonte de 15000 pages, c'est du gros travail d'autant plus si c'est un véritable capharnaum.
A mon avis, il faut tout revoir en repartant du début et plancher avec un papier et un stylo là.