Aspirateur de site, en utilisant php

Petit nouveau ! | 1 Messages

23 mai 2013, 12:00

Bonjour à tous,

Je suis à la recherche de pistes concernant la réalisation d'un fichier php destiné à aspirer l'intégralité d'un site (html uniquement) ainsi que sa structure, depuis une URL donnée vers mon ftp.

Je cherche sensiblement à reproduire de manière automatisé une aspiration HTTRACK et l'upload des fichiers aspirés vers un FTP.

Après plusieurs recherches il me semble que les modules tels que cURL ou file_get_content en php devraient largement suffire. Je suis cependant étonné de n'avoir rien trouvé d'existant qui permettrait d'aspirer l'architecture entière d'un site et non juste une page, j'ai donc de gros doutes.

Afin de ne pas me limiter dans la recherche de solution, voici pourquoi je cherche à réaliser cette aspiration :
- j'ai un site vitrine en anglais à une adresse .com
- j'utilise ensuite une solution en ligne de traduction par post-édition qui me permet d'avoir, à une adresse donnée, un site dans la langue de mon choix.
- ces sites traduits en temps réel, sont extrêmement lents lors de la navigation, du fait de l'empilement de requêtes nécessaire à leur composition.
- je cherche donc très simplement à aspirer le site traduit pour le ramener sur mon ftp OVH.
- à hauteur d'une aspiration par semaine, pour bientôt une dizaine de langue, l'option HTTRACK et upload manuel devient beaucoup trop contraignante.

Je reste néophyte dans le domaine je suis donc ouvert à tous conseil pouvant répondre à ce besoin, avec les moyens limités dont je dispose (pas de serveur linux).

Pouvez vous m'aider? Je vous remercie d'avance.

Mammouth du PHP | 619 Messages

23 mai 2013, 12:12

Bonjour,

si tu connais tous les url un simple $page=file_get_contents($url); puis tu ecrit $page dans ton fichier avec fopen

Avatar du membre
Modérateur PHPfrance
Modérateur PHPfrance | 8758 Messages

23 mai 2013, 12:46

Salut

La solution serait plutôt de commencer par voir sur l'appli d'origine pour une solution de cache côté appli , côté serveur web et côté sgbd afin d'éviter les ralentissement constaté.

@+
Il en faut peu pour être heureux ......

Invité
Invité n'ayant pas de compte PHPfrance

23 mai 2013, 14:28

Merci pour vos réponse,

Le nombre de page évolue chaque semaine et je cherche vraiment à éviter les étapes manuelles, lister les url serait une vrai usine à gaz.

L'application de traduction est un tout nouveau service de systran sur lequel je n'ai aucun moyen d'action.
L'option qui me parait viable reste une aspiration classique du contenu HTML.

Aujourd'hui :
- j'aspire une URL avec httrack
- j'upload le dossier contenant mes pages sur mon ftp dans mon dossier /fr pour le site français par exemple
- Me reste plus qu'à copier le template et mon php du site principale vers le dossier /fr et le tour est joué.

Dans ma vision actuelle, j'aimerais créer un php qui s’exécute automatiquement une fois par semaine, réalisant la copie tout seul comme un grand.

Je sais qu'on peut récupérer du contenu html, qu'on peut créer des fichiers et dossier sur un ftp, qu'on peut réécrire les redirections entre pages. Je ne sais juste pas par ou commencer...

Mammouth du PHP | 619 Messages

23 mai 2013, 14:36

Re,

tu peux voir avec un htaccess
tous les pages demandes en en/xx seront rediriger vers en.php?page=$1

puis de se php tu auras l'url demande donc avec la method plus haut ça va marche