Problème user agent simple html dom
Posté : 03 juin 2016, 11:14
Bonjour, je travaille actuellement sur un scrapper j'utiliser la lib Simple html dom, je rencontre un soucis sur certains sites.
Pour chaques url je vérifie si elles retournent un code 200, je suis tombé sur des sites qui refusent ma connexion et me demandent de changer de configuration pour accéder à leurs sites, le truc c'est que je précise bien le user agent
me retourne bien une erreur par contre si je précise le user agent ça fonctionne
donc suite à ce test j'ai essayé de forcer le useragent dans la config php avec :
Pour chaques url je vérifie si elles retournent un code 200, je suis tombé sur des sites qui refusent ma connexion et me demandent de changer de configuration pour accéder à leurs sites, le truc c'est que je précise bien le user agent
$opts = array(
'http' => array(
'method' => "GET",
'header' => "User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36",
'request_fulluri' => true
)
);
$context = stream_context_create($opts);
$html = file_get_html($url, false, $context);
j'ai donc essayé directement via ma console pour etre sur que mon user agent n'était pas envoyé dans mon script php:
Code : Tout sélectionner
curl http://monurl.com/Code : Tout sélectionner
curl -A " Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36" http://monurl.com/ini_set('user_agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36');
mais ça ne change rien si vous avez des solutions je suis intéressé , merci d'avance !!