Récupération de "Body"

Répondre


Cette question est un moyen d’empêcher des soumissions automatisées de formulaires par des robots.
Smileys
:D :) :( :o :shock: :? 8-) :lol: :x :P :oops: :cry: :evil: :twisted: :roll: :wink: :!: :?: :idea: :arrow: :| :mrgreen: =D> #-o =P~ :^o :non: :priere: 8-|
Voir plus de smileys
  Revue du sujet
 

  Étendre la vue Revue du sujet : Récupération de "Body"

Re: Récupération de "Body"

par xTG » 05 avr. 2012, 18:21

Regardes du côté de la class DOMDocument.
Elle te permettra de former un arbre DOM et de te balader facilement dedans, et donc d'extraire facile le contenu d'une balise HTML.

Récupération de "Body"

par Rav » 05 avr. 2012, 14:56

Bonjour,

Je ne sais pas si je poste ma demande au bon endroit, et je m'excuse par avance si je suis hors-sujet.

Dans le cadre de mon métier j'ai besoin de consulter des sommaires d'archive. Jusqu'à présent pour retrouver une archive j'utilisais un module de recherche. Mais ce module ne fonctionne plus et il n'est pas prévu dans des délais raisonnables de le remplacer/réparer. Ce qui me pose de grands problèmes dans mes recherches.

L'adresse de toutes les pages des sommaires est de la forme :

http://adresse/"annee"/Somm"numero_sema ... ro_semaine ".html

avec "annee" compris entre 2000 à 2012.
Et "numero_semaine" compris entre 1 et 52.

Je pourrai me lancer dans un laborieux copier-coller de tous les sommaires mais ayant il y a quelques années j'ai programmé un peu, je sais qu'il est possible avec une fonction PHP "simple" de récupérer tous les sommaires en une seule page puis d'enregistrer cette page en locale.
Seulement je suis complètement rouillé.

Je cherche donc à faire une fonction qui affiche tous les "body" à "/body" les uns-en dessous des autres de toutes les pages de 2000 à 2012, des semaines 1 à 52.

Dans le détail, la fonction récupère ce qu'il a après la balise "body" de la page
http://adresse/2000/Somm01/Somm01.html
Jusqu'à ce qu'il y a avant la balise "/body"
Puis ajoute ce qu'il a après la balise "body" de la page
http://adresse/2000/Somm02/Somm02.html
Jusqu'à ce qu'il y a avant la balise "/body"
.
.
.
Puis ajoute ce qu'il a après la balise "body" de la page
http://adresse/2000/Somm52/Somm52.html
Jusqu'à ce qu'il y a avant la balise "/body"
Puis ajoute ce qu'il a après la balise "body" de la page
http://adresse/2001/Somm01/Somm01.html
Jusqu'à ce qu'il y a avant la balise "/body"
.
.
.


Je me débrouillerai pour réaliser la fonction "debut-head" et "fin-head"

Un énorme merci d'avance pour votre aide.