casse tête de 10000 pages html

simo
Invité n'ayant pas de compte PHPfrance

19 avr. 2006, 15:59

Bonjour tout le monde

j'ai un site qui fait une dizaine de milliers de pages statics et je cherche à savoir s'il y a moyen d'automatiser la récupération du contenu et de le stocker dans une BD.

toute la difficulté réside dans le fait que ça soit un site de 15000 pages html et aussi dans le fait que le style est aléatoire ...Bref un vrai bordel

j'ai pensé à un algorithme qui récupèrera ce qu'il y a entre les <body> or j'ai vu que dans pas mal de pages des fois il n'y pas de <body> :twisted:
en suite j'ai pensé à curl mais je ne l'ai pas encore tester.

l'idée finale est de passer à un site qui sera de la forme: index.php?id=$page_id où chaque page possède un id et à chaque page on associe du contenu, truc bien fait quoi!!

théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page.

please réfléchisons tous ensemble.

ant
Eléphant du PHP | 161 Messages

19 avr. 2006, 16:11

Vite fait:

Ca sert à rien de récupérer tout ce qu'il y a entre <body> directement car ensuite faudrait trier les informations pertinentes.

En premier, m'est avis de revoir l'ensemble de la structure de tes pages en placant des éléments html cohérents.

balises <p> pour paragraphes, des balises <ul> pour les listes etc.

Ensuite, à ce moment là, tu peux créer une routine d'extraction de données qui récupèra le contenu entre ces éléments précis.

Ces données, tu peux ensuite les classer par thèmes par exemple et t'organiser à partir de ça.

Par ailleurs, lorsque tu dis:
théoriquement c'est simple, après chaque page parcourue nous allons créer un nouveau page_id dans la table "Page", nous récupererons le contenu et on le stockera ds la table "Content" en y indiquant l'Id de la page
Je pense que c'est une erreur de conception. Il faut avant tout réorganiser ton site. Il est essentiel de revoir l'architecture de ce dernier et créer un modèle viable sans refaire une copie conforme page par page.

En fait, Il y a un gros travail de fond au niveau organisationnel et structurel avant de faire quoi ce soit au niveau du code ou de la modélisation de la BDD.

Mais ne sachant pas grand chose de ton site, difficile d'en dire plus sans m'avancer mais, une refonte de 15000 pages, c'est du gros travail d'autant plus si c'est un véritable capharnaum.

A mon avis, il faut tout revoir en repartant du début et plancher avec un papier et un stylo là.

Eléphant du PHP | 259 Messages

19 avr. 2006, 18:09

ah mon avis, il faut que tu apprenne à programmer en mysql

va sur ce site, après, sa va venir tout seul !!!

http://www.phpdebutant.org
note : il faut que ton serveur ai une base de donées sql

si tu n'en a pas, il y a free.fr ou ifrance.com ( gratuits ) qui en ont

ou alors essaye avec du xml mais la je n'y connais rien

bonne chance avec tes 10.000 pages !