Forum d'entraide PHPFrance

Bonjour,

Je désirerai extraire des données de mess pages web qui sont en ligne. Cependant, je voudrais éviter de copier ces pages sur mon disque dur. Donc lire directement les pages en ligne.

Suis-je obligé de lire dans les fichiers temporaires?

Merci pour vos réponses !

Quel genre de données désires-tu extraire de tes pages et dans quel but?
As-tu des exemples concrets?

Bonjour

je voudrais extraire les URLs présentes dans mes pages web.

Cdlt

donc identifier les liens ?

Ça sent la regexp qui détecte les <a href, non ?

(gaffe aux appels de javascripts !)

Je connaisssais pas cette appli

mais en effet, j'aimerais faire ca a ma sauce

Il faut que j'extraie les données des fichiers en cache sur mon ordi?

Merci pour vos réponses

j'ai cherché sur gg, mais je ne trouve rien de bon.

bon alors déja est-ce que tu arrives à avoir le contenu entier de ta page web dans une variable ?

Bonjour

Tout d'abord merci de t'interresser a mon probleme

et bien en fait, tout mon code fonctionne sur un fichier normal qui n'est pas en cache mais je n'arrive pas a lire les page qui sont en cache dans le dossier Temporary Internet Files. La commande File n'a pas l'air de fonctionner.

Cordialement

evets

il y a peut-être quelques soucis de conception...
Où s'execute ton script ? quelle page cherches-tu à lire ? je ne suis pas sur de bien comprendre ton histoire ...

En fait je n'ai pas le code sous les yeux mais voici les grandes lignes :

Dans mon code, avec la commande javascript window.open, j'ouvre ma page web pour que celle-ci s'enregistre dans le cache (C:\Documents and Settings\pnqj7046\Local Settings\Temporary Internet Files)

Ensuite, je veux ouvrir cette page pour la lire mais ceci pose un probleme. Je ne sais pas comment lire les pages qui sont en cache.

Par exemple, regarde dans le dossier C:\Documents and Settings\pnqj7046\Local Settings\Temporary Internet Files si tu as une page html dedans ou autre chose, essaies de le lire en double cliquant dessus --> ca ne fonctionne pas. Apparemment, les fichiers du cache ne sont pas gérés pareil que des fichiers présents dans un dossier classique

Voila... j'espere que vous m'avez compris et que vous saurez m'orienter

MERCI

je ne pense pas que la méthode soit bonne...
car en effet premièrement les fichiers de cache ne sont pas des pages html brute... ensuite, ils sont hors de l'arborescence de ton serveur...
Dis nous le but de la manœuvre ... tu n'est certainement pas dans la bonne voie...

En double cliquant, effectivement, mais si tu glisse le fichier dans le logiciel adéquat (genre bloc note pour un fichier html) tu vois bien le code source... Donc normalement avec fopen(), fread() ou file_get_contents(), tu dois pouvoir les lire sans problème

Mais tu n'es pas obligé de faire ça via le cache (à noter que ca fonctionnera peut être sur ta machine, mais qu'il est peut probable que cela fonctionne si tu le mets en ligne chez un hébergeur ... a voir en fonction ce que tu comptes en faire)

Sinon et par rapport à ta première question, tu peux très bien aller lire directement une page en ligne et parser des liens avec une expression régulière... avec une petite recherche, tu devrais trouver pas mal de sujet qui en parle

MERCI POUR VOS REPONSES !

Celles-ci m'orientent, en effet ... Je n'utilise peut etre pas la bonne methode.

Le but de mon code est d'analyser des pages web en ligne. Pour analyser ces pages, je pensais qu'il fallait les copier sur mon pc puis les analyser en utilisant les expressions regulieres pour retirer de ces pages le nom des urls, des images, des videos ....etc. Mon code marche quand je copie la page html dans Mes Documents par exemple.

tu peux très bien aller lire directement une page en ligne

Je pense que mon problème est à ce niveau. Comment lire une page en ligne? Je pensais qu'il fallait lire le cache

Je continue mes recherches

Merci de m'avoir dit que je faisais fausse route !!!

Forum d'entraide PHPFrance

Lire une page web en ligne

Lire une page web en ligne