Page 1 sur 1

script parseur html

Posté : 26 avr. 2011, 16:54
par damien_55
bonjour,

Je recherche un script parseur de html.

J'ai une page html du style:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
	"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">



<html xmlns="http://www.w3.org/1999/xhtml">
<head>
	

</head>  
	
<body>		
			
				<!-- start main story div -->
				<div id="story">
		  			
					
		            <h1 class="epi-fontLg bwalignc">
      <b>xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx</b>
    </h1>
		<div id="story_subheadline">
			        	
    <p class="bwalignc">
      <i><b>xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx</b></i>
    </p>
  	    		</div>
					<!-- start story body -->
					
					<p>xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    </p>
					<!-- end story body -->
				</div> <!-- end story -->
						

				<div id="releaseBottom">
				  	
						<!-- start contacts -->
					<h2>
						Contacts
					</h2>
					<div>
    <p>
     xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
    </p>
    <p>
    </p>
  </div>
						<!-- end contacts -->
					
				
</body>				
	</html>
Je voudrais récupérer toutes les chaines de caracteres (xxxxxxxxxxxxxxxxxx) et les inclure dans une mysql. Je voudrais savoir comment proceder ? Etant donner que j'ai énormément d'url a parcourir, il faudrait que ce soit le plus simple possible pour moi. Merci de votre aide.

Re: script parseur html

Posté : 27 avr. 2011, 09:40
par Maskime
Hello,

Si tu es sûr que le HTML est bien fait, tu peux utiliser SimpleXML et parcourir ton HTML comme du XML.
Sinon je ne connais pas de script qui te permette de récupérer le contenu d'un HTML sans faire d'expression régulière bien barrée...

Re: script parseur html

Posté : 27 avr. 2011, 10:02
par xTG
Du XML ? Beurk... :evil:
La class DOMdocument est là pour cela. ;)

Re: script parseur html

Posté : 27 avr. 2011, 10:33
par Maskime
Du XML ? Beurk... :evil:
La class DOMdocument est là pour cela. ;)
Erf :\ je fais du java en ce moment <= ceci explique mon décalage sur certaines réponses :D