Page 1 sur 1
Lire une page web en ligne
Posté : 11 janv. 2007, 09:34
par evets
Bonjour,
Je désirerai extraire des données de mess pages web qui sont en ligne. Cependant, je voudrais éviter de copier ces pages sur mon disque dur. Donc lire directement les pages en ligne.
Suis-je obligé de lire dans les fichiers temporaires?
Merci pour vos réponses !

Posté : 11 janv. 2007, 09:46
par Xenon_54
Quel genre de données désires-tu extraire de tes pages et dans quel but?
As-tu des exemples concrets?
Posté : 11 janv. 2007, 11:33
par Invité
Bonjour
je voudrais extraire les URLs présentes dans mes pages web.
Cdlt
Posté : 11 janv. 2007, 11:45
par albat
donc identifier les liens ?
Ça sent la regexp qui détecte les
<a href, non ?
(gaffe aux appels de javascripts !)
Posté : 11 janv. 2007, 12:04
par evets
Je connaisssais pas cette appli

mais en effet, j'aimerais faire ca a ma sauce

Posté : 11 janv. 2007, 13:03
par evets
Il faut que j'extraie les données des fichiers en cache sur mon ordi?
Merci pour vos réponses
Posté : 12 janv. 2007, 01:33
par Invité
j'ai cherché sur gg, mais je ne trouve rien de bon.

Posté : 12 janv. 2007, 10:12
par jojolapine
bon alors déja est-ce que tu arrives à avoir le contenu entier de ta page web dans une variable ?
Posté : 12 janv. 2007, 11:07
par evets
Bonjour
Tout d'abord merci de t'interresser a mon probleme
et bien en fait, tout mon code fonctionne sur un fichier normal qui n'est pas en cache mais je n'arrive pas a lire les page qui sont en cache dans le dossier Temporary Internet Files. La commande File n'a pas l'air de fonctionner.
Cordialement
evets
Posté : 12 janv. 2007, 11:15
par jojolapine
il y a peut-être quelques soucis de conception...
Où s'execute ton script ? quelle page cherches-tu à lire ? je ne suis pas sur de bien comprendre ton histoire ...

Posté : 12 janv. 2007, 11:35
par evets
En fait je n'ai pas le code sous les yeux mais voici les grandes lignes :
Dans mon code, avec la commande javascript window.open, j'ouvre ma page web pour que celle-ci s'enregistre dans le cache (C:\Documents and Settings\pnqj7046\Local Settings\Temporary Internet Files)
Ensuite, je veux ouvrir cette page pour la lire mais ceci pose un probleme. Je ne sais pas comment lire les pages qui sont en cache.
Par exemple, regarde dans le dossier C:\Documents and Settings\pnqj7046\Local Settings\Temporary Internet Files si tu as une page html dedans ou autre chose, essaies de le lire en double cliquant dessus --> ca ne fonctionne pas. Apparemment, les fichiers du cache ne sont pas gérés pareil que des fichiers présents dans un dossier classique
Voila... j'espere que vous m'avez compris et que vous saurez m'orienter
MERCI
Posté : 12 janv. 2007, 11:42
par jojolapine
je ne pense pas que la méthode soit bonne...
car en effet premièrement les fichiers de cache ne sont pas des pages html brute... ensuite, ils sont hors de l'arborescence de ton serveur...
Dis nous le but de la manœuvre ... tu n'est certainement pas dans la bonne voie...
Posté : 12 janv. 2007, 11:46
par Ryle
En double cliquant, effectivement, mais si tu glisse le fichier dans le logiciel adéquat (genre bloc note pour un fichier html) tu vois bien le code source... Donc normalement avec fopen(), fread() ou file_get_contents(), tu dois pouvoir les lire sans problème
Mais tu n'es pas obligé de faire ça via le cache (à noter que ca fonctionnera peut être sur ta machine, mais qu'il est peut probable que cela fonctionne si tu le mets en ligne chez un hébergeur ... a voir en fonction ce que tu comptes en faire)
Sinon et par rapport à ta première question, tu peux très bien aller lire directement une page en ligne et parser des liens avec une expression régulière... avec une petite recherche, tu devrais trouver pas mal de sujet qui en parle

Posté : 12 janv. 2007, 11:52
par Invité
MERCI POUR VOS REPONSES !
Celles-ci m'orientent, en effet ... Je n'utilise peut etre pas la bonne methode.
Le but de mon code est d'analyser des pages web en ligne. Pour analyser ces pages, je pensais qu'il fallait les copier sur mon pc puis les analyser en utilisant les expressions regulieres pour retirer de ces pages le nom des urls, des images, des videos ....etc. Mon code marche quand je copie la page html dans Mes Documents par exemple.
tu peux très bien aller lire directement une page en ligne
Je pense que mon problème est à ce niveau. Comment lire une page en ligne? Je pensais qu'il fallait lire le cache

Je continue mes recherches
Merci de m'avoir dit que je faisais fausse route !!!
