Comment interpréter du HTML?

slhuilli1
Invité n'ayant pas de compte PHPfrance

13 avr. 2012, 23:27

En définitive, ce que tu sembles vouloir, c'est un affichage correct à l'écran.

Pas tout à fait : le veux du "texte brut" pour le balancer dans un fichier XML en UTF-8 de préférence


Il faudrait pour cela que le texte initial soit codé de façon cohérente:
Région et de publié : par exemple ont mal leur place dans un texte entièrement codé &machin;

Tout à fait d'accord mais comme je le disais, cela vient de ma version de FCKEditor. Un mauvais choix (en fait au depart, je n'avais pas a faire ce flux !)

Deuxième point :
Si tu peux prévoir les textes, Bluefish fait d'excellentes conversions (et surtout réversibles) -> Malheureusement je ne peux pas !

str_replace('"', "'", $str); // pourquoi pas
$a = htmlentities($str); // certes, mais ça ne vient pas à bout de Région et de publié par
$b = html_entity_decode($a); // impeccable chez moi à l'écran


$b = preg_replace('@<[^>]*?>.*?>@si', '', $str); // tu opères sur la chaîne initiale


echo strip_tags(html_entity_decode($b))."<br>"; // en se mettant en ISO-8859-??, ça fonctionne...

En revanche, le texte, dont l'auteur se cache sous un pudique anonymat, est farci de fautes d'orthographe et de grammaire élémentaire:
Patrimoine Vivant<!--s retiré-->
<!-- article retiré, car l'apposition ne prend pas l'article en français une-->
distinction nationale
savoir-faire r&eacute;gional<!--e retiré--> en mati&egrave;re de menuiserie
en si&egrave;ges <!-- s ajouté -->,
<!-- de ces simplifié--> des entreprises prestigieuses
photographi&eacute;es, <!-- inutile que sont-->
et, quelque part, a pour à.
J em'autorise cette remarque car, si c'était une annonce pourune manifestation anti-culturelle, on comprendrait mieux que l'image qu'on fournit de la collectivité soit sous une forme non-standard.
-> je sais c'est pas en prod ca, c'est du test. Mais je suis entièrement d'accord

Eléphant du PHP | 70 Messages

13 avr. 2012, 23:30

OUps j'ai été déconnecté a la validation : la suite est là : php-avance/comment-interpreter-html-t26 ... ml#p385373