Besoin d'aide pour syntaxe php

29 nov. 2019, 13:25

Bonjour,

Pour un devoir, j'ai besoin de scrapper Wikipédia

J'ai trouvé ce script pour scrapper les h1

<?php
//get the html returned from the following url
$html = file_get_contents('https://fr.wikipedia.org/wiki/Anaconda,_le_prédateur'); 
//init DOMDocument
$scriptDocument = new DOMDocument();
//disable libxml errors
libxml_use_internal_errors(TRUE); 
//check if any html is actually returned
if(!empty($html)){ 
	//loadHTML
	$scriptDocument->loadHTML($html);
	//clear errors for yucky html
	libxml_clear_errors(); 
	//init DOMXPath
	$scriptDOMXPath = new DOMXPath($scriptDocument);
	//get all the h1's
	$scriptRow = $scriptDOMXPath->query('//h1');
	//check
	if($scriptRow->length > 0){
		foreach($scriptRow as $row){
			echo $row->nodeValue . "<br/>";
		}
	}
}
?>

Ce script fonctionne pour scrapper 1 url.

Mais j'ai besoin de scrapper un liste d'url à savoir
https://fr.wikipedia.org/wiki/Anaconda,_le_prédateur
https://fr.wikipedia.org/wiki/Eunectes_murinus
https://fr.wikipedia.org/wiki/Eunectes

Comment dois-je modifier le script pour prendre en compte plusieurs url de wiki

Merci pour votre aide

29 nov. 2019, 14:00

Tu peux mettre les url dans un tableau et faire une boucle des éléments du tableau.
voir les boucles "for" et les boucles "foreach"

29 nov. 2019, 15:22

Excusez-moi mais je ne suis pas assez bon en php.
Y aurait pas quelques chose de plus simple pour écrire les url à la suite séparé par une virgule ou quelque chose d'autre ?
Merci pour votre aide

29 nov. 2019, 15:26

avec seulement 3 urls et aucune connaissance en php, tu fais 3 fichiers différents avec une url par fichier.

29 nov. 2019, 15:38

Ok mais si j'ai 20 url ?

29 nov. 2019, 15:51

1 fichier, 20 copier/coller du code et un changement d'url par bloc de code.

29 nov. 2019, 17:28

Merci pour votre aide

30 nov. 2019, 01:35

Peut être que ça ne rentre pas dans le cadre de ton devoir, mais ça pourra servir à d'autres.
La meilleure façon de récupérer des infos de Wikipedia est d'utiliser leur API qui est très bien documentée et simple d'utilisation.

La doc est là : https://fr.wikipedia.org/w/api.php
Un exemple sur une des pages que tu voulais parser :
https://fr.wikipedia.org/w/api.php?acti ... _prédateur

Besoin d'aide pour syntaxe php

Qui est en ligne