SWITCH TO ENGLISH

Next Post: Logiciel open source : éditeur de textes pour windows
Previous Post: Utiliser Netvibes pour promouvoir vos idées


Aspirer un site web pour le consulter hors ligne


Voilà maintenant 7 ans que j'utilise HTTrack pour "aspirer des sites web"(1) et les consulter hors ligne. Il s'agit d'un des premiers logiciels sous licence GPL que j'ai utilisé.

(1) "Aspirer des sites web" : copier le contenu d'un site web sur son disque dur.

HTTrack fonctionne sous Windows et sous Linux. Une interface graphique existe, mais on peut aussi l'utiliser en ligne de commande. Les paramètres par défaut de l'application permettent une aspiration très performante. Le logiciel fonctionne comme les robots des moteurs de recherche : il suit les liens hypertextes et sait lire les site en php. Une fonctionnalité permet même de mettre à jour les copies des sites déjà aspirés.


Si la diffusion des logiciels d'aspiration est parfaitement légale, certains usages ne le sont pas. Or, en matière juridique, les conséquences de l'intention priment sur la technique utilisée. Attention donc à n'utiliser ces copies que dans un cadre privé :)



Pour l'exemple, voilà les étapes qui vous permettraient d'aspirer le site talend.com :

Etape 1 : définir, sur son disque dur, l'emplacement où sera stockée la copie du site

définir l'emplacement où sera stocké la copie du site


Etape 2 : indiquer l'adresse (url) du site web

indiquer l'adresse (url) du site web


Etape 3 : au besoin définir les options

définir les options


Etape 4 : laisser le logiciel aspirer ....

HTTrack: aspirateur de site


J'ai utilisé ce logiciel dans le cadre de formations, mais aussi pour permettre la consultation de sites web dans un avion et tout dernièrement pour livrer le contenu du site talend.com à une société spécialisée dans la traduction.

Site de téléchargement : www.httrack.com

Publication Date: 2007-07-31

Tag: Open-Source

Related Posts



139 Comments


On 2007-11-05, jean: Avez vous essayé des logiciels comme Internet Download Manager ?
(distribué en france par archisoft archisoftint.com/idm )


On 2007-11-05, Olivier: N'ayant jamais rencontré de difficulté avec HTTrack, je n'ai jamais été tenté de tester d'autres logiciels ... L'interface graphique n'est pas des plus belles, mais l'efficacité est bien au rendez-vous.


Mais votre avis est bienvenue ! Quels avantages connaissez-vous Internet Download Manager ? Depuis combien de temps l'utilisez-vous sans rencontrer de difficultés ?


On 2008-01-12, ELGADAOUI: salut, je veux un aspirateur de sites Web (code source VB ou C++).
par exemple HTTrack n'est pas complet sur les codes sources Interface et application de Dos donc il y a un probleme dans l'execution de chaque code .
alors je veux un d'autre code source VB ou C++ ou JAVA rien avoir HTTRACK si deja modifier le prbleme (HTTRACK ) envoyez le s'il vous plait.sinon ..
Merci beaucoup pour Guidez et pour envoyez .
Merci avance .


On 2008-01-12, Olivier: Un aspirateur ne pourra recupérer que le code interprété par le serveur web. Les sites aspirés sont toujours transformés en format HTML, format dédié la lecture dans un navigateurs web.

Les sites aspirés sont pourtant souvent réalisés avec des langages interprétés par serveurs web. Le rôle de l'aspirateur est de permettre la consultation d'un site sans nécessiter de connexion internet. Il ne permet pas de récupérer le code source des sites visités.


J'ai l'impression que vous cherchez plutôt récupérer une application qu'un site web ? Aspirateur ou pas, ce que vous cherchez faire ne me semble possible réaliser que si le propriétaire du site l'a prévu. Peut-être pouvez vous vous tournez vers les sites dédiés au partage de script : l vous pourrez facilement télécharger des codes sources !


On 2008-08-03, laurent: Bonjour,

Effectivement httrack est un aspirateur très puissant, sans mauvais jeux de mots.
Toutefois, je n'ai pas encore bien compris comment aspirer les pages d'un site nécessitant un login et mot de passe (bien entendu je sais quel login et mot de passe utiliser, mais comment le faire prendre en compte par httrack ?)


Par exemple, je voudrais aspirer sur un ultraportable une partie du site www.geocaching.com, pour disposer des infos nécessaires au jeu lors de mes déplacements, mais quand j'aspire le site je ne récupère que des pages partielles comme si je l'avais consulté sans me logger.


On 2008-08-09, Olivier: D'après mon expérience, lorsque la sécurité login/password utilise les cookies (ou sessions), il suffit de se logger sur le site web dans un browser et de lancer ensuite l'aspiration. Httrack peut ainsi aspirer le site tel qu'il est visible dans son browser. Toutefois, cela ne marche pas aussi facilement lorsque la sécurité est en https ... il faut alors préciser son login et password dans les paramètres d'httrack ... pour plus de précision, je vous invite consulter le forum officiel d'httrack :)


On 2008-08-18, laurent: J'avais essayé la manip que tu indiques mais ça ne marchait pas, le site émet un cookie de session qui ne fonctionne que dans le navigateur et pas pour httrack.


En fait, sur le site httrack ils indiquent une astuce utilisant un mode proxy, et l ça marche parfaitement.


Le seul hic c'est que le site que je voulais aspirer prévoit dans sa charte l'interdiction d'utiliser un aspirateur...


On 2008-11-13, virginie: Bonjour,
J'utilise aussi cet aspirateur mais ça dure des lunes...(4000 liens) du coup, j'en viens jms bout...Est-ce normal que ça prenne des jours et des jours?

Merci bcp


On 2008-11-13, Olivier: @Virginie: aspirer un site, c'est comme photocopier un livre... Et photocopier un livre de 4000 pages prend du temps !


Quel site cherchez-vous a aspirer ?

@Laurent: si c'est interdit, alors il ne faut pas le faire :)


On 2008-12-15, Claude: bonjour ,


merci de vos lumières , par contre un site sur lequel j ai tenté une aspiration me donne du fil a retordre , et la même avec du temps je sèche
j'aimerais de l'aide s il vous plait
le site est "le boudoir des copines"


je vous remercie d avance de m aider dans mon apprentissage d aspirant lol


On 2008-12-26, Olivier: Chaque site est particulier et il faut parfois jouer d'habilitée pour obtenir un résultat concluant !


Le site évoqué par Virginie est un skynetblogs, il est long aspirer car beaucoup de liens hypertextes sont présents sur les pages ... et HTTracks, par défaut, suit tout ces liens !


Un cas particulier, les blogs : l'utilisation d'un lecteur de flux RSS comme RSSOwl peut être plus adapté !


Quand au site boudoir des copines, la difficulté provient certainement de l'authentification login/password. Lors de l'aspiration du site, veillez être authentifié sur le site dans un navigateur et surtout utiliser une version récente d'HTTrack. Vous pourrez ainsi bénéficier du bouton Add URL suivant :


On 2009-04-20, Amazigh: salut tous merci pour ces efforts !


j'aimerai comprendre une chose,j'ai un blog chez Canalblog que je veux supprimer définitivement ,mais avant ça je veux le garder comme souvenir en l'aspirant avef Httrack !


j'ai tenté et facilement Httrack me répond que l'aspiration est terminée !
et lorsque je tente le vérifier Hors-ligne ,ç demande la connexion a l'internet ,ce qui signifie que le site est toujours dépendant d'Internet ??
je ne risque de perdre le souvenir de mon site si je compte sur Httrack ??
pourquoi mon site aspiré ne marche pas chez moi sans connexion ??

merci pour l'aide !


On 2009-04-23, jawad: C'est un très bon logiciel, mais il ne faut pas toujours faire de copie coller


On 2009-04-24, jawad: HTTRACK grand vainqueur, mais laisser moi poser une question est ce que possible d'aspirer les flashs et tous les codes dans le site, même de php, css, ou les codes dot net.........
En fait le logiciel déj testé est ça marche très bien, essayer de le faire, aspirer par exemple google.com :) je pense que c'est très :( essayer un autre.


On 2009-04-24, Olivier: @ Amazigh : je réagis certainement un peu tard ... http://www.fatytaf.c.la/ n'existe déj plus ...

@ jawad : je ne saisi pas bien l'idée du copier/coller ? Sinon, HTTRACK aspire bien les flash, les css, les doc, les vidéos ... tout ce qui se télécharge sur votre poste est aspiré. Par contre, le code php, dot net, ou le code d'un langage de programmation coté serveur n'est pas aspiré ... il est interprété par le serveur web, génère du html et est ensuite transmis votre poste. L'aspirateur récupère ce html et ne peut pas accéder au code php :)


On 2009-05-24, Cristo: bonjour, je comprends pas car tout l'air si simple! Or j'ai systématiquement une "erreur de chargement de la première page" lorsque je veux aspirer le blog http://parcoursdejoelsurlesmers.over-blog.com/ est-ce cause de la page de pub qui s'affiche avant tout? Merci de l'aide que vous pourriez m'apporter


On 2009-06-07, Olivier: J'ai aspiré le site en conservant les options par défaut et je ne constate pas d'"erreur de chargement de la première page" ... voulez-vous en dire plus sur les difficultés que vous rencontrez ?

Pour plus de précision, je vous invite consulter le forum officiel d'httrack :)


On 2009-06-08, Cristo: Bonjour et tout d'abord un Grand Merci pour votre réponse


Malheureusement, je viens de faire une nouvelle tentative et je retombe sur la même "Erreur"
Précision : j'utilise Vista

J'ai créé un répertoire nouveau pour ce téléchargement, conservé les options par défaut et utilisé le choix "connexion déj établie"
Voici le journal d'erreurs que j'obtiens après 1 seconde de téléchargement:

Merci de votre aide

HTTrack3.43-4 htsswf htsjava launched on Mon, 08 Jun 2009 10:03:08 at
http://parcoursdejoelsurlesmers.over-blog.com/
*.png *.gif *.jpg *.css
*.js -ad.doubleclick.net/* -mime:application/foobar
(winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F
"Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F
"" -%l "fr, en, *" http://parcoursdejoelsurlesmers.over-blog.com/
-O1 "D:\sitesWeb\joel mer\transat joel"
*.png *.gif *.jpg *.css *.js -ad.doubleclick.net/* -mime:application/foobar )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
10:03:11 Warning: File not parsed, looks like binary: parcoursdejoelsurlesmers.over-blog.com/
10:03:11 Error: "Open error when decompressing" (-1) at link parcoursdejoelsurlesmers.over-blog.com/ (from primary/primary)
10:03:11 Info: No data seems to have been transfered during this session! : restoring previous one!


On 2009-07-09, SAndra: en effet pas moyen de télécharger parcoursdejoelsurlesmers.over-blog.com j'ai le même problème, je me demande comment Olivier a pu réussir avec les réglages par défaut !

C'est une protection overblog pour ne pas saturer leurs serveur....

Si olivier publie ici la méthode, ça va lui générer un sacré traffic ;-)


On 2009-07-14, Olivier: Je viens de réessayer, et je confirme que cela fonctionne :)

SAndra, es tu sur Vista ? As-tu plus d'information sur la protection d'overblog ?

Voici les réglages que j'applique :







Et voil le résultat au bout de 15 minutes :


Je vous invite télécharger :
- le zip correspondant au site obtenu après 15 minutes d'aspiration, /blog/parcoursdejoelsurlesmers.zip


On 2009-10-21, Mathieu: Bonjour,

J'aimerai savoir si il était possible avec cet outils d'aspirer un site depuis le cache de google .. ?
C'est pour récupérer le wiki d'une distro linux qui est malheureusement KO depuis quelques semaines.

http://www.slitaz.org/ seul google a les clefs du wiki désormais et j'aimerai pouvoir le récupérer pour nouveau en faire profiter la communauté.
Pensez vous que cela soit possible ?


On 2009-10-24, Olivier: Hello :)

 



Le wiki n'est en effet plus accessible mais une copie de certaines pages (peut-être pas toutes) est visible depuis le cache de google. La difficulté est d'indiquer son "aspirateur" les urls de ces pages en cache.


 



La seule solution qui me vient l'esprit est d'aspirer une des pages de résultat de Google : tout les liens cache pointant sur son cache. En indiquant par exemple comme url du site aspirer :


 



http://www.google.fr/search?num=500&btnG=Recherche Google&as_epq=wiki&as_sitesearch=http://wiki.slitaz.org


 



Cette url listera les 500 premières pages du site et contenant le mot "wiki" :)



On 2009-11-30, Dali: Bonjour,

Vous avez indiqué possible d'aspirer un blog grâce RSSOwl, il m'est égal de conserver la structure, seuls les articles et commentaires m'intéressent.

Comment indiquer RSSOwl d'aspirer tout le blog ? Il est base de wordpress.

Merci.


On 2009-12-01, Olivier: Bonjour Dali,

 



Un blog diffuse habituellement 2 flux RSS qui permettent d'accéder :
- aux billets publiés sur le blog
- aux discussions (suite de commentaires sous les billets)

 



Pour un blog wordpress, ces 2 flux sont par défaut accessibles en utilisant les adresses :
- http://myblog/?feed=rss2
- http://myblog.com/?feed=comments-rss2

 


Il faut donc indiquer ces 2 adresses RSSOwl est vous pourrez récupérer les articles et commentaires relayés par ces flux. Le flux relai les 20 dernières publications du blog, ou les 100 dernières. Il reste rare qu'un flux reprenne entièrement l'historique d'un blog :)


On 2009-12-08, Drags: Hello
j'essaie de faire une sauvegarde de mon propre blog hébergé sur over-blog. C'est quoi l'astuce donc pour que ca fonctionne ???
Merci par avance

Fréd


On 2009-12-09, Olivier: Bonjour Fred :)

Avez-vous utilisé le paramétrage par défaut de HtTrack ? Qu'elle erreur rencontrez vous ?


On 2009-12-10, Drags: Bonjour Olivier,
désolé pour le tps de réponse. J'ai utilisé le paramétrage par défaut de htTrack (hormis l'option identification étant donné que mon site est protégé par mot de passe).
Dans les screenshots présentés plus haut, j'avoue ne pas avoir vu où étaient les modifications par rapport au paramètrage par défaut... si vous pouviez éclairer ma lanterne ! :-)
Fréd


On 2009-12-13, Olivier: Je t'invite a me communiquer l'url du site et le password associé pour que je puisse tester et decouvrir le parametrage requis.

La page contact de ce blog permet de m'envoyer ces infos de manière confidentielle. Il faudra bien sur changer le mot de passe ensuite :)


On 2009-12-16, Drags: Bonsoir Olivier
merci pour votre réponse. J'ai envoyé les infos demandées via la page "contact". J'espère que votre expertise me permettra de résoudre le pb !
Merci par avance
Frédéric


On 2009-12-17, Olivier: Frédéric, la solution n'a pas été simple trouver ... ton blog over-blog est "caché" derrière un nom de domaine en point com, une sécurité login/password est en place et un robots.txt existe !

 



Pour aspirer ton blog, j'ai paramétré l'url grâce au bouton "Add Url" en précisant http://www.lemondedeleo.com/ et le login/password communiqué par tes soins.

 


Puis j'ai demandé au logiciel de ne pas tenir compte du fichier robots.txt comme dans la capture d'écran ci-dessous (deuxième liste de sélection no robots.txt rules :

 




 


Et avec ce paramétrage ... l'aspiration ne pose plus de problème :)

 


Frédéric, j'espère avoir ainsi répondu tes questions ... et je t'invite changer le password de ton blog car tu me l'as communiqué ... pas toujours pratique de changer cela (il faut avertir tout ces visiteurs) mais nécessaire quand le blog en question publie les photos du petit Léo (un enfant) :)



On 2009-12-17, Drags: Merci Olivier, ca marche nickel !

Au risque d'abuser de ton expertise, sais-tu si il y a un moyen de récupérer les videos (ou de repointer facilement vers les fichiers source qui sont sur mon PC - mais hebergés sur wat.tv quand on accède au blog) ? Cela me permettrait d'avoir une vraie version "complète" off-line !

Merci bcp en tout cas pour ton aide, déj comme ca c'est super

Frédéric


On 2010-01-18, Dilane: Bonjour,

Est ce qu'il est possible de récupérer une page web ayant été supprimée et provenant d'un forum?

Le lien qui mène vers la page web en question n'existe apparemment plus qu'en mode cache seulement il ne m'est impossible d'y accéder car il y'a un message d'erreur qui m'en empeche.

Voici le lien:

forum.doctissimo.fr/...amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm -

http://209.85.229.132/search?q=cache:zSFXn1nGK10J:forum.doctissimo.fr/psychologie/Coup-de-foudre-et-passion-amoureuse/sentiments-amoureux-deprime-sujet_5024_1.htm+sentiments+amoureux+pour+un+ami+et+d%C3%A9prime&cd=1&hl=fr&ct=clnk&gl=fr


On 2010-02-03, Max: Bonjour,
je viens de tomber sur ce forum et je vois que Olivier touche sa bille! :)
J'essaye désespérément de récupérer la structure de ce site:http://www.le-paradis.fr/fr/presentation.htm
mais chaque fois j'ai le message d'erreur suivant:
ERREUR DECOPIE httrack a détecté que la copie courante était vide......
y arrivez vous?
Merci de bien vouloir m'aider
Cordialement
Max


On 2010-02-03, Olivier: Bonjour Dilane,

 


Je ne comprend pas bien la problématique ... la page du cache Google s'affiche correctement et il est possible de faire "enregistrer sous" pour la récupérer sur son disc dur, non ?

 




Bonjour Max,

 



Quel est le paramétrage que tu utilises ? Quels sont les tests que tu as réalisés ?

 


Pour ma part je saisi juste l'url que tu as indiqué dans le HtTrack en laissant le paramétrage par défaut et cela fonctionne bien ... au bout de 5 minutes j'obtiens cela ... donc si tu laisses tourner des heures, tu dois récupérer tout le site :)


On 2010-02-05, Max: Lol merci pour ta réponse!
J'ai utilisé la même configuration que celle ci dessus.
(tuto winhttrack)
Impossible de récupérer le moindre fichier....toujours la même erreur !
Pfffff je ne comprend pas!
je continu chercher, je te tiens au courant olivier
merci
.


On 2010-02-05, Max: Voici mon journal d'erreurs Olivier!
Merci de bien vouloir jeter un oeil!
(Je précise que le but de ma démarche et de comprendre la structure du site afin d'essayer de faire la même chose.)

 




HTTrack3.43-9 htsswf htsjava launched on Fri, 05 Feb 2010 19:18:33 at http://www.le-paradis.fr  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar  *.gif  *.jpg  *.png  *.tif  *.bmp  *.zip  *.tar  *.tgz  *.gz  *.rar  *.z  *.exe  *.mov  *.mpg  *.mpeg  *.avi  *.asf  *.mp3  *.mp2  *.rm  *.wav  *.vob  *.qt  *.vid  *.ac3  *.wma  *.wmv
(winhttrack -qir2C2%Ps1u1%s%uN0%I0p3DaK0H0%kf2A20000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -P http://www.le-paradis.fr/fr/presentation.htm -%l "fr, en, *" http://www.le-paradis.fr -O1 "C:\Mes Sites Web\new visual" *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
19:18:33 Warning: Cache: damaged cache, trying to repair
19:18:33 Warning: Cache: 0 bytes successfully recovered in 0 entries
19:18:33 Warning: Cache: error trying to open the cache
19:18:35 Error: "Unable to get server's address: Unknown error" (-5) after 2 retries at link le-paradis.fr/robots.txt (from primary/primary)
19:18:42 Error: "Unable to get server's address: Unknown error" (-5) after 2 retries at link le-paradis.fr/ (from primary/primary)
19:18:42 Info: No data seems to have been transfered during this session! : restoring previous one!


On 2010-02-06, Olivier: Le log semble indiquer que le logiciel lis le fichier robots.txt ...je te conseille donc d'essayer le paramétrage décrit dans mon commentaire du 17/12/2009 : no robots.txt

 


As tu téléchargé le zip que j'ai mis ta disposition dans ma précédente réponse ? Cela peut certainement t'aider comprendre "la structure" du site.

 


Si cette réponse ne te permet toujours pas d'aspirer le site, il faudra poster ton log et expliquer le problème sur le forum officiel d'httrack :)


On 2010-02-08, Kagou: Bonjour,

 



Tout d'abord merci pour toutes les infos dont vous nous faites part dans cet article et les conseils donnés.
Je me permets de poster pour un petit problème, savoir, j'essaye de capturer le site suivant : http://www.accessibilite-batiment.fr/ pour travailler dessus avec mes élèves. L'aspiration se passe assez bien (j'ai suivis les conseils du 14/07/09), par contre quand j'essaye le site hors connexion, je passe l'intro de l'application (clic tout en bas première page "Loqacce cité en ligne"), mais il m'est impossible d'afficher/charger des sous parties nommées "illustrations" (fichiers étant de la vidéo ou autres), exemple : passez l'intro>habitat collectif neuf>stationnement>nombre>illustration (en bas gauche).

 


Si vous aviez une idée pour résoudre mon problème, j'en serai heureux 8=)

Cordialement


On 2010-02-10, Max: Merci beaucoup pour ton aide Olivier.
Oui le zip m'a servi
Tout baigne !
Bonne continuation.
Merci pour ta disponibilité et réactivité.


On 2010-02-11, Kagou: up up, pas d'idées ??? ;=(


On 2010-02-11, Olivier: Bonjour Kagou !

 



Des idées, j'en ai ! Du temps, un peu moins ;)

 



Je pense que les vidéos ne sont pas aspirées. Pourquoi ? Il faut que je prenne le temps d'aspirer ledit site pour le constater et pouvoir (j'espère) y apporter une solution :)

 


Certains contenus sont difficiles aspirer, notamment les "embedded", contenu provenant d'un autre site et étant encapsulé sur d'autres sites ... Comme le sont bien souvent les vidéos.

 



Un peu de patience, je vais jeter oeil prochainement !

 


Ps: quel cours animez vous ? L'usage du web est il bien perçu par les élèves ?


On 2010-02-12, Kagou: Bonjour,

 



Merci de prendre un peu de temps pour essayer de tous nous aider. J'enseigne dans le domaine du Génie Civil, donc il m'est très utile de présenter mes élèves des logiciels/sites qui allient la fois les textes normatifs ainsi que des exemples/ photos précis. Ceci pour éviter d'accentuer l'ennui de certains quant la recherche d'informations dans des textes souvent peu digeste, je l'avoue. En ce qui concerne la perception du web par les élèves, je dirais que cela dépend de plusieurs facteurs (intérêts de l'élèves pour la matière étudiée, heure de la journée mais aussi la manière dont sont présentées les choses). En générale, plus la démarche est cadrée point par point, plus l'élève s'investit. Ceci dis, un bon cas pratique est nécessaire pour argumenter sur les différents problèmes qu'ils devront solutionner l'avenir.

 


Cordialement.


On 2010-02-12, Olivier: Kagou, merci de partager ici ce retour d'expérience :)

 


En effet, je ne pense pas qu'il n'existe de discipline (ni de disciple) qui pourrait se passer d'un "bon cas pratique" :)

 


En ce qui concerne la perception du web par les élèves, je dirais que cela dépend de plusieurs facteurs (intérêts de l'élèves pour la matière étudiée, heure de la journée mais aussi la manière dont sont présentées les choses).

 



La manière est en effet très importante, il est bon de le noter !

 



Voil ce que donne l'aspiration du site : accessibilite-batiment.zip. Je n'ai pas croisé de vidéo mais toutes les images semblent bien accessibles hors ligne. Ce zip est-t-il complet ?

 



Pour réaliser cette aspiration, j'ai appliqué le paramétrage décrit le 14-07 et celui ajouté le 17-12. Les fichiers robots sont dédiés aux moteurs de recherche et permettent d'interdire l'indexation de certains contenus. Il semblent préférable de ne pas suivre ces règles lors d'une aspiration :)


On 2010-02-13, Kagou: Re-Bonjour,

 



Merci pour cet essai, malheureusement le site aspiré ne contient pas les vidéos qui me posent problème, voici une capture d'écran qui montre un exemple de l'arborescence de ce fichier vidéo non capturé.

 



Sur le net : illustration 1

Après aspiration sans les illustration (vidéos ou photos) : illustration 2

 




Si vous aviez d'autres idées, je suis preneur, j'avoue avoir utilisé 3 aspirateurs de sites différents pour un résultats presque identique, peut être le problème vient de la config du logiciel ...

 


A suivre ;)


On 2010-02-14, Olivier: L'animation présente sur la page accessibilite-batiment.fr/fileadmin/loqacce/loqacce_cite.html est une animation Flash (extension swf).
En repartant du paramétrage décrit le 14/07, il faut donc vérifier que l'extension *.swf est bien inclue dans les Scan Rules.

 


Les animations flash embarquent (embed) parfois un contenu externe et les aspirateurs passent souvent " coté", si je ne suis pas sur que cela s'applique l'animation évoquée ... je constate que ni vidéo ni illustration ne sont inclues dans la version aspirée :(

 



Cette animation inclue apparemment des vidéos et des images ... mais je n'ai pas pu les voir même sur internet ... je ne dispose pas d'une bonne connexion ces derniers jours et le site web précise que cette animation n'est pas conçue pour une animation en ligne :)

 


La bonne nouvelle est que l'animation est prévue pour une consultation hors ligne et dois donc répondre vos attentes ! En effet, pendant le chargement de l'animation, une alerte nous indique que l'animation n'a initialement pas été créée pour une visualisation en ligne ... il serait donc prévu de la consulter hors ligne ?

 



Comment récupérer cette animation et la jouer en cours ? Le plus sage me semble de demander l'aide du webmasteur du site accessibilite-batiment.fr ! Avez-vous pris contact avec les responsables de ce site web - publications@cstb.fr - pour leur demander si ils consentaient vous communiquer cette animation pour une consultation off line ?


On 2010-02-16, Kagou: Re-bonjour,

Après de multiples essais infructueux, je me suis vu dans l'obligation de passer autres choses, cependant l'organisme ayant réaliser cette animation la propose en téléchargement gratuit sur leur site (j'étais au courant mais lors de mes précédent essais, leur serveur ftp ne répondait pas). Donc pour le moment le fichier de 266Mo zippé est en cours de téléchargement, et j'espère en tirer une quelconque utilité pour mes élèves. Merci encore pour avoir tenter de m'aider. Je me suis rendu compte qu'une autre option est assez intéressante c'est télécharger tout dans le domaine pour les extensions.

Merci encore et peut être bientôt pour une autre conversation.


On 2010-02-23, dadado: Bonjour.
J'ai utilisé htttrack pour aspirer le site www.developpez.com ; une fois l'aspiration terminée, et que j'accède au site hors connexion, je ne vais pas plus loin que la première page. c- -d dès que je clique sur un lien, un onglet ou un bouton de la page d'accueil du site, la page internet non disponible apparait. ???


On 2010-03-04, Olivier: Bonjour Dadado,

Pour pouvoir aspirer "un peu plus" que la page d'accueil, il faut réaliser l'aspiration avec les paramètres décrit plus haut. Cependant, en réalisant moi même l'aspiration de ce site web, je constate des difficultés lors de la consultation des pages du forum : celle-ci ne sont pas aspirées et je dois me reconnecter internet pour les visualiser.

Le site web www.developpez.com distribue en effet ces pages sur deux noms de domaines :
- www.developpez.com
- www.developpez.net

Je vous conseille donc d'indiquer ces deux urls lors du paramétrage de l'étape 2 du logiciel (une url par ligne) afin que la copie locale soit plus complète :)

Et si seule la partie forum vous intéresse, il suffit de n'indiquer qu'un seul nom de domaine : www.developpez.net :)


On 2010-03-10, Vanessa: Bonjour,
Travaillant dans le e-learning, je commence me pencher sur les aspirateurs de site web. J'aimerais en effet trouver des solutions de simulation d'applicatif plus souples que les outils tels que Captivate. Je suis tombée sur ces échanges intéressants.
Bien entendu, je dois approfondir ma recherche mais une question me tracasse : un aspirateur peut-il être utilisé sur un système d'information ? Parce qu'en effet les SI sont souvent reliés de multiples Bases de données...

D'avance merci.


On 2010-03-10, Olivier: Bonjour Vanessa,

 


Quelle type de formation dispensez-vous ?


 


Captivate est génial pour "prendre des films" de son écran et réaliser ainsi des démos. Ce type d'outil est très utile si on anime des formations logicielles. N'oublions pas que pédagogiquement l'apprenant a besoin de manipuler ... il ne faut donc pas se limiter de simples démos pour que la formation soit efficace :)


 


Par contre un aspirateur ne peut aspirer que des contenus web ... internet, extranet ou intranet et le fait que des bases de données ou un langage serveur ne sont pas des contraintes car tout ce qui est aspiré est transformé en HTML (langage lisible en local sur votre ordinateur, sans nécessité d'installation particulière).


 


Pour pouvoir vous conseiller plus précisément, il faudrait détailler le type de formation que vous animez et indiquez ce que vous souhaitez exactement aspirer :)



On 2010-03-10, Vanessa: Merci Olivier de cette première piste.

 


Bien entendu Captivate est pertinent pour les démonstrations ainsi que les simulations. Je l'utilise beaucoup dans des dispositifs d'autoformation asynchrone mis dispo sur des LMS (tracking oblige !). Les apprenants peuvent s'entrainer par exemple sur leur outil (SI) en suivant une scénarisation reflétant des situations métiers concrètes et exactes.

 


Ma réflexion se porte sur les évolutions et la maintenance d'un tel contenu de formation. En effet, si le SI évolue (nouvelles fonctionnalités, donc nouveaux champs de saisie, nouvelles procédures), je suis obligée de "retoucher" mes captures pour des changements légers mais quand de nouveaux écrans voient le jour suite des évolutions, je me retrouve dans l'obligation de "recapturer" et de recréer les séquences d'exercices scénarisées.

 


Donc, je me demandais si avec un aspirateur de site je serai capable de :
* mettre jour les écrans (au vu de votre réponse, je pense que oui même si j'ai un doute quant aux liaisons avec des BDD externes avec lequel le SI est relié - je précise qu'il est accessible par internet en mode non sécurisé, juste login/pw mais pas de https)
* scénariser un contenu de formation => quelles seraient mes possibilités de scénarisation sur ces cas métiers ? Je ne sais pas si un aspirateur m'offrirait la possibilité de "scénariser". C'est dire de paramétrer les erreurs potentielles des apprenants (légende d'échec par exemple pour reprendre les termes de Captivate) et de les "stopper" quand il y a des manipulations erronées.

 


Si un apprenant ne respecte pas les consignes et qu'il peut remplir ce qu'il veut dans les champs de saisie ou cliquer n'importe où et qu'il n'a pas de feed-back, l'objectif pédagogique ne sera jamais atteint !

 


Faut-il alors des développements spécifiques après avoir aspiré une appli si l'on veut scénariser ?

 


Je ne sais pas si je suis assez claire, mais j'espère que vous pourrez m'éclairer.

 


Merci d'avance pour ces échanges.
Vanessa.


On 2010-03-11, Olivier: La mise jour des didacticiels représente toujours une difficulté certaine ... notamment lorsque l'application évolue fréquemment !!! Ma propre expérience dans le milieu du logiciel l'Open Source me confronte une situation identique !!

 


Le résultat de l'aspiration d'un "SI" (d'un site intranet par exemple) sera une copie statique de l'existant. L'aspirateur ne prend donc pas des "photos" du site web, mais en aspire le code html. Ainsi les formulaires sont présent en l'utilisateur peut les remplir ... mais la fonctionnalité ne sera pas forcément opérationnelle et aucun contrôle ne sera possible de votre part.

 


Imaginons un intranet avec un formulaire de recherche. Dans la copie statique aspiré, le formulaire sera visible et on pourra saisir du texte puis cliquer sur le bouton "chercher". Mais la page de résultat n'affichera probablement pas les résultats escomptés car le lien avec les bases de données aura été rompu par l'aspiration ... et que seule les données "statiques" auront été aspirées.

 


"Scénarisé" un site aspiré est techniquement possible, mais le temps nécessaire sera beaucoup trop important pour s'avérer rentable. La maintenance ne s'avéra pas moins onéreuse non plus :(

 


Donc NON, je ne pense pas qu'un aspirateur de site soit une solution pour vos didacticiels :(

 


Mais ... la solution pour vous est peut-être dans l'organisation de votre contenu de formation. Captivate est un bon outil ... surtout si vous êtes habituée l'utiliser ! Il me semble qu'il il faut souvent changer quelques captures d'écran et non tout le didacticiel. Aussi pouvez vous peut-être découper votre contenu de manière plus granulaire pour en faciliter la maintenance ? Peut-être n'est-il pas nécessaire de mettre jour tout vos didacticiels mais de trouver des astuces pour informer des mise jour :
- ajouter chaque didacticiel une note (un commentaire texte ou un document attaché) présentant les différences entre la version "filmé" et les différentes version du "SI"
- ajouter un didacticiel présentant toutes les mises jour d'une version du "SI" une autre

 


Pensez-vous qu'une de ces pistes améliorerai la situation ?


On 2010-05-14, D'Jeff: Bonjour !

Voil , j'ai essayé d'aspirer un site mais en vain, j'ai essayé avec différents logiciels mais ça n'a marché dans aucun cas, et pour cause je ne l'ai découvert qu'après m'être résigné vouloir aspirer le site en question : je n'arrive plus du tout afficher le site : ni sur mon ordi, ni sur mon iPod Touch. (le problème ne vient pas du site car une amie a réussi l'afficher de chez elle).... Pouvez-vous m'aider pour que je puisse nouveau reafficher ce site défaut de ne pas l'avoir aspirer ???!!

Merci d'avance :)


On 2010-05-14, Olivier: Bonjour D'Jeff !

Etonnant que tu n'arrives pas visiter un site, ni sur ton ordi, ni sur ton iPod !!

Le problème n'a en effet rien voir avec le logiciel d'aspiration utilisé. Tu n'aurais pas parlé d'un iPod j'aurai mis en cause le contrôle parental ... ou des règles de sécurité (antivirus ou règle du browser). Mais ton iPod n'est certainement pas soumis au même règles que ton ordinateur ... l je sèche.

Reste peut-être aspirer le site depuis l'ordinateur de ton amie !!


On 2010-09-11, zidan: bonjour,

je voudrais savoir si c'est possible de récupérer un theme wordpress sur un site avec
HTTrack ?


On 2010-09-11, Olivier: Si l'objectif est de le récupérer pour le réutiliser, la réponse est non :(

Ceci dit, si le thème est diffusé librement (et donc réutilisable), il est habituellement telechargeable sur le web :)

Pour connaître le nom (et l'auteur) du thème utilisé par un blog, il faut regarder le pied de page du blog oú il est souvent cité. On peut aussi regarder directement dans le code source (et notamment dans la feuille de style - css).


On 2010-09-14, Jean-Baptiste: Bonjour Olivier, j'ignore si ce forum est encore actif mais je tente ma chance tout de même. J'essaie d'aspirer ce site http://www.photostudioschool.com/ dont j'ai accès grâce un abonnement. L'ennui c'est que ce site n'est pas très actif et l'abonnement est cher, je souhaite néanmoins aspirer son contenu actuel afin d'envisager une résiliation.
Bref avec winhttrack j'ai un pb, je n'y arrive pas et je suppose que le site est protégé.
J'ai essayé d'entrer mon code mais le pb c'est que le site ne propose pas de login a proprement parlé, il est en effet nécessaire de mettre nom, prénom, email et mot de passe.
Je ne sais pas paramétrer le logiciel, du moins pertinemment.
Je te laisserai mes codes si nécessaire et si tu réponds!


On 2010-09-14, Olivier: Jean-Baptiste, je te propose d'essayer la démarche suivante :
- te connecter sur ledit site avec ton nom/prénom/email
- lancer immédiatement après l'aspiration en utilisant les paramètres tel que défini plus haut (notamment celui qui est lié aux règles des moteurs de recherche - robot.txt)

Si cela ne marche toujours pas, il faudra en effet me communiquer tes codes pour que je tente par moi même et cherche le bon parametrage. Tiens moi au courant :)


On 2010-09-14, Jean-Baptiste: Merci de ta réponse Olivier,
Alors, j'ai essayé avec les paramètres du 17/12/2009.
Le logiciel ne m'a pas montré de message d'erreur et a enfin commencé aspirer.
J'ai ensuite consulté son travail et malheureusement il avait aspiré la première page mais au moment ou je rentre mes codes j'ai une page blanche.En gros httrack a aspiré la page d’accueil (celle qui demande de se logger) mais pas les pages auxquelles on a accès une fois loggé...
Je vais t'envoyer mes codes.


On 2010-09-16, Frederic: Bonjours,
voila j'essaie de récupérer le site de ma société lm-arcenciel.com pour pouvoir le présenter au besoin sur mon portable, qui plus est, le site vas bientôt disparaitre car trop cher du coup ma boite veux le stopper mais je n'y arrive pas comment faire ?
merci


 



Les réglages étant ceux du post du 14/07/09
voici le rapport d'erreur

HTTrack3.43-9 htsswf htsjava launched on Thu, 16 Sep 2010 15:27:52 at lm-arcenciel.com  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar  *.mov  *.mpg  *.mpeg  *.avi  *.asf  *.mp3  *.mp2  *.rm  *.wav  *.vob  *.qt  *.vid  *.ac3  *.wma  *.wmv  *.zip  *.tar  *.tgz  *.gz  *.rar  *.z  *.exe  *.gif  *.jpg  *.png  *.tif  *.bmp
(winhttrack -qiC2%Ps2u1%s%uN0%I0p7DaK0H0%kf2A25000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "fr, en, *" lm-arcenciel.com -O1 "I:\Mes Sites Web\LM Arc en Ciel" *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.gif *.jpg *.png *.tif *.bmp )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
15:27:53 Warning: Cache: damaged cache, trying to repair
15:27:53 Warning: Cache: 0 bytes successfully recovered in 0 entries
15:27:53 Warning: Cache: error trying to open the cache
15:27:53 Error: "No data (connection closed)" (-4) after 2 retries at link lm-arcenciel.com/robots.txt (from primary/primary)
15:27:54 Error: "No data (connection closed)" (-4) after 2 retries at link lm-arcenciel.com/ (from primary/primary)
15:27:54 Info: No data seems to have been transfered during this session! : restoring previous one!


On 2010-09-17, Olivier: @Jean- Baptiste :

Merci Jean- Baptiste pour ce complément d'information. Apparemment l'aspiration n'a en effet pas réussi capturer les pages protégées. J'ai bien reçu par mail les paramètres qui me permettront de tenter mon tour d'aspirer ce site. Je te tiens au courant :)

 


 



@Frédéric :

Je constate en effet le même problème lors de l'aspiration du site ... je vais tenter d'y accorder un peu de temps et de t'aider. Sais-tu jusqu' quand le site sera maintenu en ligne ?
Ceci-dit, si ta société paye la pûblication de ce site "pages-jaunes" le contenu du site appartient certainement ta société et il suffit donc de demander celui qu'il l'a produit (pages-jaunes) de te communiquer le contenu afin de le consulter sur un ordinateur non relié internet. Disposes-tu d'un contact auprès de pages-jaunes ?


On 2010-09-17, Frederic: Non je n'ai aucun contact avec la personne qui gère cela pour récupérer le contenu (j'y avais déj pensé)
Voila le pourquoi de l'aspiration m'est venue a l'idée


On 2010-09-23, Olivier: @Frédérique:

Difficile d'absorber ce contenu avec httrack ... pagesjaunes semble construire ces sites de manière ce qu'ils soient inaspirables et surtout non modifiables par un terrien !! C'est surprenant de voir le mal qu'ils se sont donner pour que le code soit incompréhensible.

Exceptionnellement je vais y consacrer un peu de temps et tâcher de t'aider. J'ai ainsi récupéré une partie du contenu et vais tâcher de te communiquer asap un site qui fonctionnera sur ton PC (ou sur une clef USB voir un CDROM). Ne t'attends pas non plus un miracle car je ne peux y consacrer des heures, mais juste une bête copie du site qui te permettra de continuer démarcher tes clients. Je pense pouvoir te fournir cela début octobre :)


On 2010-09-28, Frederic: Impeccable je t'en remercie d'avance Olivier ;)


On 2010-10-12, boheme: Bonjour,
Je suis des cours de soir de guide nature, j'essaye d'aspirer :
http://la.climatologie.free.fr/sommaire.htm
pour le consulter en classe où il n'y a pas d'accès internet
J'ai suivi toutes les recommandations ci-dessus, il cale :

HTTrack3.43-9 htsswf htsjava launched on Tue, 12 Oct 2010 11:01:51 at http://la.climatologie.free.fr/sommaire.htm  *.png  *.gif  *.jpg  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar
(winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "fr, en, *" http://la.climatologie.free.fr/sommaire.htm -O1 "C:\Mes Sites Web\Climatologie" *.png *.gif *.jpg *.css *.js -ad.doubleclick.net/* -mime:application/foobar )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
11:01:51 Warning: Cache: damaged cache, trying to repair
11:01:51 Warning: Cache: 0 bytes successfully recovered in 0 entries
11:01:51 Warning: Cache: error trying to open the cache
11:02:33 Error: "Connect Error" (-4) after 2 retries at link la.climatologie.free.fr/robots.txt (from primary/primary)
11:03:15 Error: "Connect Error" (-4) after 2 retries at link la.climatologie.free.fr/sommaire.htm (from primary/primary)
11:03:15 Info: No data seems to have been transfered during this session! : restoring previous one!


On 2010-10-12, Olivier: @ Frédéric:

Le site que tu pourras consulter sans connexion internet est téléchargeable ici :)

 


J'ai remanié certaines pages (notamment la page photo) et donc le site n'est pas "identique" celui qui est encore en ligne.
Il ne s'agit donc pas d'une "aspiration classique" mais d'une copie manuelle - réalisable uniquement quand le site a très peu de pages.

 


J'espère que cela répondra tes attentes...

 


 



@Jean- Baptiste: je n'ai pas pu tenter grand chose ... photostudioschool est en grande partie inaccessible pour cause de "licence expirée" ... ils doivent contacter leur hébergeur :)

 


 



@boheme: Difficile de comprendre ce log ! J'ai lancé l'aspiration sur mon poste et n'ai pas rencontré de problème ... le résultat de 5 mn d'aspiration est téléchargeable ici :)


On 2010-10-16, ATOL: Bonjour Olivier,

Dans le cadre de mon travail je souhaiterai aspirer le site eurodecor-sa.com ou je dispose d'un login et dun mot de passe mais winhttrack lui ne le fait pas.
J'ai donc mis les mêmes réglages comme indiqué au dessus et tenter d'aspirer apres m'être connecté au site mais sans réussite de ma part. C'est cause du mot de passe je pense et du login que je peux t'envoyer.
Merci pour tout ce que tu fais .


On 2010-10-16, Olivier: Bonjour ATOL !

Peux tu stp copier/coller la log d'erreur que tu obetiens et confirmer que tu arrives bien aspirer la partie du site non protégé par l'authentification login/pwd ? Cela m'aidera certainement te conseiller :)


On 2010-10-19, boheme: Merci Olivier
Dommage de ne pas savoir ce qui a foiré
Merci pour le telechargement


On 2010-10-20, ATOL: Merci de ta réponse Olivier,

Voici donc le Log d'erreur que j obtiens l issue :

HTTrack3.43-9 htsswf htsjava launched on Wed, 20 Oct 2010 09:51:40 at www.eurodecor-sa.com  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar  *.gif  *.jpg  *.png  *.tif  *.bmp  *.zip  *.tar  *.tgz  *.gz  *.rar  *.z  *.exe  *.mov  *.mpg  *.mpeg  *.avi  *.asf  *.mp3  *.mp2  *.rm  *.wav  *.vob  *.qt  *.vid  *.ac3  *.wma  *.wmv
(winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0c4H0%kf2A25000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "fr, en, *" www.eurodecor-sa.com -O1 "D:Mes Sites Web\mailing1" *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe *.mov *.mpg *.mpeg *.avi *.asf *.mp3 *.mp2 *.rm *.wav *.vob *.qt *.vid *.ac3 *.wma *.wmv )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
09:51:40 Info: Note: due to www.eurodecor-sa.com remote robots.txt rules, links begining with these path will be forbidden: / (see in the options to disable this)
09:51:41 Info: engine: transfer-status: link updated: www.eurodecor-sa.com/ -> D:Mes Sites Web/mailing1/www.eurodecor-sa.com/index.html
No files purged
HTTrack Website Copier/3.43-9 mirror complete in 1 seconds : 2 links scanned, 1 files written (38560 bytes overall), 1 files updated [10450 bytes received at 10450 bytes/sec], 38560 bytes transfered using HTTP compression in 1 files, ratio 25%
(No errors, 0 warnings, 2 messages)


Merci.


On 2010-10-25, Olivier: Bonjour ATOL,

A priori le problème vient du paramétrage du logiciel d'aspiration. Il te faut donc essayer en ignorant le fichier robots.txt ... comme expliqué dans le commentaire du 14/7 ... la capture d'écran ci-dessous reprend le bon paramétrage et devrai te permettre de réaliser l'aspiration :



Tiens nous au courant ;)


On 2010-10-27, Gael: Bonjour Olivier,
Je souhaiterai aspirer le site 1001cocktails.com ! Cependant, ce qui m'intéresse réellement dans ce site, c'est la barre de recherche pour trouver partir d'un ingrédient des recettes de cocktails !
J'ai lu tout le blog et apparemment vous dites qu'il est possible de "scénariser" ! Est-ce qu'il y a des options cocher ? Pouvez vous m'en dire un peu plus pour que je trouve une solution ?

Merci d'avance pour votre temps !


On 2010-10-30, Olivier: Bonjour Gael !

Il n'est ( ma connaissance) malheureusement pas possible d'aspirer la fonctionnalité "recherche" d'un site, celle-ci sollicite en effet une base de données qui n'est accessible que connecté.

Désolé, je ne connais pas de solution :(


On 2010-10-30, Gael: Bonsoir,

Okay, merci bien Olivier ! Je continue tout de même mes recherches, je vous tiendrai au courant !

Merci !


On 2010-11-08, Carole: Bonsoir,

 


Tout d'abord merci pour l'ensemble des informations super interessantes.

 


Malgrè vos précieux conseils, je n'arrive pas aspirer un blog "wordpress".
C'est un blog que j'ai crée depuis la naissance de mon fils et il contient l'ensemble de ses progres (500 articles). Je souhaiterai faire une sauvegarde mais sans succès.

 


Selon les paramètres, il m'aspire soit la première page, soit rien du tout...

 


Voici l'adresse :
http://pomponcalou.wordpress.com
Avec la redirection :
http://battisacchi.fr

 


Avec tous mes remerciements


On 2010-11-09, Olivier: Bonjour Carole,

 



J'ai tenté l'aspiration du blog et n'ai pas rencontré de difficulté ...

 



Pour aspirer ton blog, j'ai paramétré l'url grâce au bouton "Add Url" en précisant http://pomponcalou.wordpress.com puis j'ai demandé au logiciel de ne pas tenir compte du fichier robots.txt comme dans la capture d'écran ci-dessous (deuxième liste de sélection) no robots.txt rules :

 




 


Et avec ce paramétrage ... l'aspiration ne pose pas de problème :)

Voici d'ailleurs le résultat de quelques minutes d'aspiration : pomponcalou.zip.

 


A savoir aussi, les blogs wordpress disposent d'une fonctionnalité d'export permettant d'exporter le contenu de son blog sous forme de fichier XML, c'est la sauvegarde "absolue" pour ce type d'outil :)


On 2010-11-10, Carole: Un grand merci pour vos précieuses informations et pour votre travail.
Tout fonctionne effectivement correctement.
Je suis ravie.
Mille mercis
Carole


On 2011-03-25, raza: bonjour tt le monde , j'ai un petit problème :/ j'aimerai bien aspirer un site de formation qui sera fermer cette semaine mais le problème qu'il me demande 2 fois l'identification , alors je n'ai pas arriver jusk' maintenant de faire ça !!
Merci de m'avoir aider
cordialement


On 2011-04-21, graphiste nesk: Il existe des sites qui protègent leur contenu des aspirateurs de site, d'où les éventuelles difficultés que l'on peut rencontrer...


On 2011-05-18, Geoffrey: Bonjour Olivier,

Je rencontre des difficultés aspirer le site : http://faststrings.com

J'utilise la technique du navigateur proxy pour capturer l'url d'authentification mais après il n'aspire pas le site en mode "logué".. j'ai bien exclus tous les liens contenant "logout" mais sans succès. j'ai essayé no robot txt rules et aussi les get html first, ça ne marche tjrs pas.

Voil mon le début de mon log:

HTTrack3.44-1 htsswf htsjava launched on Wed, 18 May 2011 17:08:13 at http://faststrings.com/?>postfile:C:\My Web Sites\new try\hts-post0  *.css  *.js -ad.doubleclick.net/* -mime:application/foobar -*/*Logout* -*/*logout* -*/*Logout*/* -*/*logout*/* -*[name].*[name]logout*[name].*[name]/* -*[name].*[name]Logout*[name].*[name]/* -*Logout* -*logout*
(winhttrack -qwC2%Ps0u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F -%F -%l "en, en, *" http://faststrings.com/?>postfile:C:\My Web Sites\new try\hts-post0 -O1 "C:\My Web Sites\new try" *.css *.js -ad.doubleclick.net/* -mime:application/foobar -*/*Logout* -*/*logout* -*/*Logout*/* -*/*logout*/* -*[name].*[name]logout*[name].*[name]/* -*[name].*[name]Logout*[name].*[name]/* -*Logout* -*logout* )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
17:08:14 Warning: File has moved from faststrings.com/?>postfile:C:\My Web Sites\new try\hts-post0 to http://faststrings.com/index.php?option=com_user
17:08:33 Error: "mirror stopped by user" (-1) at link faststrings.com/ (from faststrings.com/index.php?option=com_user)
17:08:33 Error: "mirror stopped by user" (-1) at link faststrings.com/component/option,com_xmap/Itemid,11/sitemap,1/ (from faststrings.com/index.php?option=com_user)
HTTrack Website Copier/3.44-1 mirror complete in 20 seconds : 28 links scanned, 25 files written (368980 bytes overall) [378377 bytes received at 18918 bytes/sec], 6.7 requests per connection
(2 errors, 1 warnings, 0 messages)


Merci de votre aide


On 2011-05-18, Olivier: Bonjour Geoffrey,

Le log posté dans le commentaire précédent indique "mirror stopped by user" ... il ne s'agit apriori pas d'une erreur logicielle mais d'un arrêt forcé par l'utilisateur. Aspirer un site peu prendre du temps, plusieurs heures voire plusieurs jours : il faut laisser l'aspirateur tourner et faire preuve de patience :)

 



J'ai lancé l'aspiration dudit site ... et voici ce que j'obtiens après quelques minutes d'aspiration : http://ocarbone.free.fr/faststrings.zip : le site me semble aspiré correctement :)



On 2011-05-18, Geoffrey: Merci de ta réponse mais le problème c'est que je souhaiterai l'aspirer en étant logué!
Et les cookies, proxy blabla ne fonctionnent pas. Il m'aspire le site en mode non-logué


On 2011-05-23, Geoffrey: J'essaie toujours mais il me retourne une erreur xml et les autres pages en mode non-logué... une idée où je pourrai creuser? ou que j'essaie une autre manière avec une boucle en batch et firefox? je désespère :D


On 2011-05-23, Geoffrey: J'ai trouvé une extension Firefox qui a l'air de faire le boulot: Scrapbook :)
Merci pour l'aide quand même!


On 2011-05-28, D'Jeff: Bonjour !
Je reviens après 1 an d'absence , mon message date du 14/05/2010 . . . .
En ce qui concerne le fameux site que j'arrive pas aspirer, c'est netcarshow.com . J'ai besoin de me constituer une bibliothèque d'images et... ça fait un an que ça m'embête...
Pour ce qui est du fait que je ne pouvais plus accéder au site, la seule solution que j'ai trouvé pour pouvoir de nouveau le consulter est e revenir un point de restauration antérieur ma tentative d'aspiration ... des idées pour m'aider ??!


On 2011-06-24, besdu06: Bonjour,

J'essaye d'aspirer avec httrack le site suivant: http://www.manageo.fr/annuaire_entreprises_activite/02/3511Z/1.html
Mais il ne m'affiche que la page principale (celle du lien). Ce que je voudrais c'est avoir les liens de cette page, cad les informations sur la liste des entreprises.
Merci pour votre précieuse aide.
Besdu06


On 2011-06-24, Olivier: Bonjour,

Comment avez-vous paramétrer httracks ? Avez-vous suivi les consignes énoncées ci-dessous ... notamment propos des Scan Rules et des paramètres Spider ?


On 2011-06-24, besdu06: Bonjour Olivier,
Je suis une vrai débutante dans ce logiciel, et j'ai parcourue rapidement (un peu trop vite...) le forum. Par contre je voudrais bien une petite explication car je n'arriverai pas m'y retrouver dedans.

Merci ;)


On 2011-06-24, Olivier: Chaque étape du paramétrage de ce logiciel est précise et doit être fait attentivement :)

 



Lorsque l'on débute, il faut se donner un peu de temps afin de bien comprendre ce que l'on doit faire et de se familiariser avec le logiciel :)

 


Cet article liste étape par étape les paramètres appliquer, images l'appui. Prenez le temps de paramétrer votre logiciel en suivant ces étapes et cela devrai sembler plus simple !

 


N'hésitez pas poser ensuite des questions précises sur ce blog ou sur le forum officiel du logiciel. Il est en effet difficile de fournir "une petite explication" ... mais il devrai être plus simple de répondre une question précise :)


On 2011-06-24, besdu06: Honnêtement j'ai passé l'après midi dessus et j'ai pas trouvé la réponse ma question.

Moi je sais pas si c'est vraiment une question de paramètre httrack, car en aspirant intégralement le site dont le lien est http://www.manageo.fr/annuaire_entreprises_activite/02/3511Z/1.html il ne m'aspire que la première page et non le contenu de la liste des entreprises pour le cas de ce site.
Pour les experts en la matière, vous ne pourriez pas essayer de le faire avec votre logiciel httrack et me dire s'il y a une solution pour récupérer la liste des entreprises?

Merci ^^


On 2011-08-02, flibi: bonjour
quelqu'un saurait me dire quel critère renseigner, quelle case cocher ou comment faire pour que HTTrack indique l'url correcte de mon lien de sorte tomber directement sur le lien que je veux voir et non sur le haut de page ? J'ai un blog que par ce biais je tente d'archiver mais quand je clique sur un lien interne correspondant un message, je tombe systématiquement sur le haut de page du sujet !

 



Par exemple, j'aimerais que HTTrack me mette en barre d'adresse l'url suivante :
file:///C:/Users/USER/Documents/slurp/monforum 0711/monforum.com/t71-Katyn.htm#p139 (katyn étant le sujet et p139 étant le message)
et non celle-ci :

 


file:///C:/Users/USER/Documents/slurp/monforum 0711/monforum.com/t71-Katyn4fd5.htm (qui ne me fait pas accéder au message directement)

 


Je suis sur Google chrome. J'ai essayé avec Ie ou Opera, c'est idem !
merci de votre réponse


On 2011-08-06, Olivier: Hello Flibi,

 



Le site monforum.com permet aux particuliers de créer leur propre forum et de le visiter grâce une url du type xxx.monforum.com. Ce type de site ne s'aspire pas toujours facilement et parfois l'aspirateur cherche aspirer tout les sites hébergés par monforum.com et non seulement celui qui nous intéresse !

 


Je viens de réaliser un test en aspirant pendant 10 minutes un de ces forums et ne constate pas du tout le problème que tu rencontres ? Tu peux consulter le résultat de mon test sur http://ocarbone.free.fr/elementalistes.zip :)

 


Impossible donc de t'aider sans plus d'explication de ta part. Peux tu nous indiquer quelle est l'adresse de ton forum ? Et quel paramètre as tu choisis pour l'option suivante :

 



 


Cette option est utile lorsque l'on cherche modifier le nom des fichiers/liens que génèrent l'aspirateur. Si vous n'êtes pas très technique, le plus sage est de ne pas modifier ce paramètre.


On 2011-08-06, Olivier: Hello besdu06,

En effet le site que tu indiques semble être protégé contre l'aspiration :(
A priori, tu cherches aspirer les 3 pages correspondants aux entreprises "Production d'électricité' ... et je ne vois pas comment faire !

Je vous invite donc consulter le forum officiel d'httrack :)


On 2011-08-09, flibi: bonjour Olivier et merci pour ton test :
on peut cliquer sur n'importe quel message et le voir apparaître en haut de page et c'est exactement ce que je cherche faire sur la copie de mon site !
En fait, sur Httrack, j'ai laissé la structure "par défaut" ne sachant pas trop quoi choisir
Le problème vient de l ?
Le site en question : http://minilien.fr/a0jrww


On 2011-08-09, Elisabeth: Bonjour Olivier,
Après une lecture très attentive des posts qui précèdent, et des essais tous infructueux, je m'adresse vous. Je suis professeur d'anglais et dans le cadre d'une séquence consacrée la présentation je souhaite utiliser ce jeu sur le site du British Council: http://learnenglishkids.britishcouncil.org/en/fun-with-english/face-match
Craignant des problèmes de connexion lorsque j'aurai m'en servir, je souhaiterais en disposer hors connexion.
Rien faire je n'y arrive pas bien qu'essayant les différents paramétrages proposés plus haut.
En connexion ce jeu est accessible librement sans login.
Merci d'avance pour tout conseil


On 2011-08-16, Olivier: @Flibi:
J'utilise aussi le paramétrage "structure par défaut" et je ne vois pas du tout d'où peut venir ton problème ...
Je viens d'essayer sur l'adresse exacte de ton forum et l'aspiration me semble correcte. Tu peux observer le résultat sur minilien.zip.

 

 


@Elisabeth:
Il n'est jamais facile d'aspirer un site contenant des animations Flash ... et lorsque le site imbrique différentes animations les unes entres elles, cela devient impossible ! Les aspirateurs ne savent pas ( ma connaissance) lire ces animations flash correctement.
Mais manuellement, si on connais le code HTML, on peut tenter de récupérer ces animations :) J'ai donc tenté d'aspirer manuellement le jeu en question et tu peux télécharger une copie sur FaceMatch.zip afin de vérifier qu'il fonctionne intégralement sans connexion web. Par contre, il ne faut pas oublier que ce jeu est sous copyright, et que pour l'utiliser "en dehors" du site web original, il peut s'avérer nécessaire d'obtenir l'autorisation du British Council.


On 2011-08-24, Elisabeth: Merci pour le temps passé et pour le résultat.
Elisabeth


On 2011-09-03, Papis: Bonjour Olivier;
Il m'arrive d'aspirer des sites complets l'aide de HTTrack sans problèmes...
Par contre, il semblerait que les sites contenant du flash posent des difficultés...
Sa fait des jours que j'essayes d'aspirer le site web : "http://www.quranflash.com/en/index.html" et sa marche, mais quand je clic sur "Entré" la page ne s'affiche pas...
Si vous aviez une idée pour résoudre mon problème, j’en serai heureux :]
Cordialement!!!


On 2011-09-05, Olivier: Hello Papis,

Impossible en effet d'aspirer ce site ! J'y vois 2 raisons majeures :
- l'animation Flash est appelée en javascript, d'une manière dont HTTrack n'arrive pas l'interpréter
- l'animation Flash fait appel de multiples autres animations (on le devine car on voit apparaître des Loading... pendant que l'on regarde l'animation)

Je ne vois donc pas de solution pour aspirer ce site ... si ce n'est contacter l'auteur du site pour lui demander si il veut bien mettre votre disposition une version offline de son site :)


On 2011-09-06, Papis: Vous avez raison elle fait appel de multiples anims c'est sa le problème!!!mais
Merci pour l’aide quand même!!!


On 2011-09-16, thierry: bonjour ...
impossible aspirer site www.bys.fr problemes de proxy ??? j ai essaye plusieurs fois en changeant les parametres mais pas moyen ..
merci par avance pour votre aide.
Thierry


On 2011-09-16, Olivier: @thierry: difficile de comprendre pourquoi mais je n'arrive pas réaliser l'aspiration du site en précisant l'url www.bys.fr ?? Par contre, il suffit d'indiquer l'url www.bys.fr/fr/node/90 (qui correspond la page UK) pour que l'aspiration du site fonctionne (ou semble fonctionner car je n'ai laisser tourner que 10 minutes avant de tout supprimer).

Quand une url n'est pas acceptée par HTTracks, il faut chercher en utiliser une autre :)


On 2011-10-03, Lulu: Bonjour

Je cherche récupérer les webinar du site Talend : ce logiciel permet il de le faire ?
Lors de la lecture en direct, un fichier tmp est créé dans le répertoire temporaire de windows, mais est effacé une fois que je ferme la fenêtre de visionnage.
c'est un fichier qui doit être du flash.

Je précise que c'est uniquement dans le but de les regarder hors ligne, en aucun cas les distribuer.

Cdt,
Lulu


On 2011-10-12, Olivier: Bonjour,

Les webinars de Talend ne sont pas "aspirables" et nécessitent une connexion internet.

A ma connaissance, nous ne les avons pas encore diffusés autrement. Si l'usage "hors ligne" est pour vous indispensable, je vous invite contacter notre service marketing (info@talend.com) afin de leur communiquer votre requête :)


On 2011-11-16, Patrick B.: Bonjour Olivier,

Je viens de consulter votre site que je trouve très instructif et passionnant la fois.

Passionné par un jeu Sniper Elite sur PC, je souhaite utiliser HTTrack pour aspirer ce jeu et pouvoir me divertir lors de mes déplacements notamment dans le train...

Est-ce possible ?

Par avance, merci pour votre réponse.

Cordialement,
Patrick


On 2011-11-16, Olivier: Bonjour Patrick,

Concernant les jeux, il n'est que rarement possible d'utiliser un aspirateur de site pour les récupérer et jouer offline.

Certains jeux ne peuvent pas fonctionner sans connexion internet (pour des raisons techniques ou simplement stratégiques). C'est notamment le cas pour les jeux multi-joueurs : une connexion internet est requise pour que "plusieurs utilisateurs puissent jouer sur le même plateau" :)

Quand aux jeux qui acceptent de fonctionner offline, et bien l'option est souvent directement incluse dans le jeu !

Donc malheureusement : non, les aspirateurs ne répondent pas votre besoin.

Je vous suggère de contacter l'éditeur du jeu (ubisoft) pour leur demander si une version offline existe ... ou si un jeu similaire existe en mode offline :)


On 2011-12-02, loriote: Bonjour Olivier,
j'ai créé un site sur wix, a priori ça génère du flash.
Etant sur mac je n'ai pas HTTrack (je n'ai pas encore regardé si c'est disponible pour mac) mais je voulais au préalable savoir s'il est possible d'aspirer ce genre de site.
(le site que j'ai indiqué ne contient que peu de pages, les autres sont masquées car en projet)
Merci de bien vouloir faire le test pour moi et me dire si c'est possible.
Merci encore pour tous ces renseignements,
Loriote


On 2011-12-05, Olivier: Il me semble qu'HTTrack ne fonctionne pas sur Mac ... par contre http://www.sitesucker.us/mac/mac.html est une alternative possible :)

L'aspiration d'un site wix n'est pas simple ... d'une la technologie Flash ne s'y prête pas vraiment, et ensuite wix a tout intérêt empêcher les utilisateurs d'aspirer leur création, afin que le site wix reste un incontournable !

Loriote, si tu souhaites récupérer ton site wix, le plus simple me semble de t'adresser wix et de leur demander directement de te fournir une copie de ton site ... quitte ce que leur réponse s'accompagne d'un devis :)


On 2011-12-07, Nad: Bonjour,
Merci pour ces infos et vos réponses toujours clairs.

Je souhaite aspirer un site flash, jusque l aucun problème, mais est il possible en théorie (comme en pratique) d'aspirer ce dit site, de le modifier ma guise et de le remettre en ligne sur un serveur avec un nom de domaine qui m'est propre.

Sans voler quoi que ce soit, moi qui suis novice en création de site web je souhaite m'inspirer d'un site ( de ces modules etc..) sans non plus faire du copier coller (ce qui est mon sens immorale et interdit).

En d'autre thermes pui-je aspirer un un site et le rebalancer sur la toile.

Par avance merci, même si la question sort du politiquement correct :).

Cordialement.


On 2011-12-07, Olivier: Un site web est une œuvre intellectuelle, il est donc soumis la propriété intellectuelle et des droits d'auteur. Il n'est donc généralement pas permis d'aspirer un site et de le republier sous un autre nom !

Le plus sage est de contacter l'auteur/propriétaire du site en question et de lui demander directement son aval (par écrit) :)

Techniquement, pour modifier le site en question, il te faudrait aspirer les sources flash pour pouvoir les ouvrir dans l'éditeur et les modifier ... hors avec un aspirateur, tu ne récupéreras que les animations flash et ne pourra donc pas les modifier.


On 2011-12-08, fredoucom: bonjour olivier !!!

Peux tu m'aider ? voil j'aimerai aspirer les liens de ce site : http://mac-eine-funk.blogspot.com/2011_01_09_archive.html ( les liens sont cachés , il faut cliquer sur les pochettes pour y accéder).

mais je n'y arrive pas avec httRack...si ce log ne correspond pas mes attentes , que me conseilles tu comme log ? merci toi !


On 2011-12-09, Olivier: @fredoucom: La situation que tu décris est particulière et HTTrack ne semble pas adapté pour cette aspiration.

 



Ce blog hébergé sur blogspot présente des posts représentant les pochettes d’œuvres musicales. En cliquant sur une pochettes, on est redirigé vers le site de partage en ligne : mediafire.com

 



Il s’agirait donc de suivre les liens présent sur un blog de blogspot et d'aller ensuite sur le site de mediafire pour aspirer les musiques (téléchargeable au format zip). Cela s'avère impossible, mediafire a en effet développé son site de manière a ce que l'on ne puisse pas l'aspirer ... ce qui oblige l'utilisateur le visiter et regarder/cliquer sur les publicités !! Et oui, quand un site base son modèle économique sur la publicité, il ne nous permet pas de nous y soustraire :)

 


Si techniquement c'était possible, il faudrait aussi s'attendre des temps de téléchargement hallucinant !!

 


Quel logiciel te conseiller ? Je ne vois aucun aspirateur capable de résoudre ce problème (mais rien ne t’empêche d'en essayer d'autres pour le vérifier). Par contre, tu peux peut-être trouver les mêmes œuvres musicales grâce aux logiciels d'échange P2P ? Les logiciels d'échanges P2P ont justement la vocation de permettre aux internautes de s'échanger leurs fichiers volumineux, cela semble beaucoup plus correspondre tes usages :)

 


Enfin, je n'est pas parlé de musique/album/son ... mais bien d’œuvre musicale. Ce distinguo me permet d'insister sur le fait qu'une œuvre est soumise certaines règles de propriété intellectuelle qu'il nous faut respecter :)


On 2011-12-28, Anonyme: Je n'ai pas compris si aspirer un site, ou plutot un jeu, permet de le modifier et de le recréer.


On 2011-12-28, Olivier: Aspirer un site web c'est le copier l'identique sur son disque dur. Techniquement cela reviend obtenir une copie du code HTML, et un initié peut en effet le modifier si il le souhaite ... Mais attention car il ne faut pas aller l'encontre de la loi !

Concernant les jeux, ils ne sont généralement pas aspirables :)


On 2011-12-29, Thomas: Bonjour,

J'essaie d'utiliser HTTRACK pour aspiré un site qui nécessite log/mdp que je possède. L'aspiration se fait bien mais lorsque je souhaite relire les pages en local, les liens internes des pages ne sont pas en local mais pointent vers les liens internet. Avez vous un conseil me donner ?


On 2012-01-03, Olivier: Il n'est pas toujours évident de paramétrer correctement un aspirateur de site :)

Thomas, il est difficile de te conseiller sans plus d'information de ta part. As-tu respecté le paramétrage expliqué en début d'article, notamment ceux de l'onglet LIMIT ? Il est aussi possible que le site que tu aspires utilise un menu Flash voire un code javascript pour réaliser la navigation ... ce qui est rend l'aspiration inefficace :(

Peux-tu aussi stp indiquer l'url du site que tu tentes d'aspirer (sans bien sur communiquer ton login/password qui doivent rester secret) ?


On 2012-02-16, Jonathan: Bonjour Olivier!

J'ai lu une bonne partie des commentaires, mais je n'ai pas réussi aspirer correctement un site ( qui va bientôt disparaitre ). Le Front-Office, pas de soucis, mais ce que j'aimerais c'est récupérer le Back-office, en mode "loggé". J'ai essayé le bouton "add url" avec les identifiants, avec le mode no robots.txt, mais sans succès, il aspire en mode connecté quand même. Tu as une idée de configuration ?

Merci.


On 2012-02-16, Olivier: Bonjour Jonathan :)

Il est de plus en plus difficile d'aspirer les sites qui réclament une authentification. Si le bouton AddUrl ne fonctionne pas, tu peux aussi essayer de te connecter via le browser avant de lancer l'aspiration ... parfois, cela suffit !

Je t'invite aussi a me communiquer l'url de ton site et les codes d'accès via la page contact (/blog/?page_id=12) afin que je fasse un test de mon coté.

@+


On 2012-04-24, nadège: Bonjour,
Bravo pour ce forum, il y a tellement d'infos intéressantes et utiles !
Je viens d'aspirer mon propre blog. Il est maintenant sur mon PC. J'ai crée un nouveau blog et j'aimerai pouvoir importer celui que j'ai aspiré sur ce nouveau (pour faire en quelque sorte un double). Tout se passe sur Blogger. Qu'il s'agisse de la fonction "Sauvegarde/restauration" ou de la fonction "importer" du blog, je n'y arrive pas.
Savez-vous comment faire ?
Merci pour votre aide :)
+


On 2012-05-23, Olivier: Comment importer/exporter des posts entre différents systèmes de blog ?

 


Aspirer un blog ne produit pas une "copie importable" dans un système de blog :(

 



L'aspiration d'un blog génère une copie des pages HTML du blog, c'est un format pratique pour visualiser la copie des pages dans son browser :) Mais ce n'est pas idéal pour importer les posts dans un nouveau blog.

 



Pour importer/exporter des posts entre différents systèmes de blog, il faut utiliser un fichier xml structurant les données et non des fichiers html ! La majorité des systèmes de blog offrent des fonctionnalités d'import/export qui permettent de les manipuler sans avoir à connaître le xml :)

 


Nadège, il te faut donc aller sur ton propre blog blogger pour exporter le fichier d'échange XML (http://support.google.com/blogger/bin/answer.py?hl=fr&answer=97416) et ensuite, aller sur ton nouveau blog et importer ledit fichier :)

 



@


On 2012-06-07, Liloo: BOnjour,


J'ai une question à ce sujet....

Voilà, je n'y connais pas grand chose en web.... voire même rien du tout.... Mais, j'aurais quand même souhaité avoir un site internet à moi....
Je me renseigne donc et je tombe sur cette possibilité "d'aspirer" des sites.

Ma question est donc la suivante.....
Ayant repéré un site il y a quelques jours dont je pensais m'inspirer pour réaliser le mien. Il n'y a que la structure globale du site qui m'intéresse, tout le reste (le design etc.... je le modifierais et le simplifierais suivant mes besoins)

Est ce quelque chose de possible a faire avec un aspirateur de site.... Réussir a avoir un ossature globale, mais que je pourrais modifier et remplir/vêtir à ma sauce dans un programme de webdesign suivant mes besoins/envies... etc ?

Merci de vote réponse


On 2012-06-13, Olivier: @Liloo: pour créer son site web, partir d'un site aspiré risque d'être chronophage ! Mais c'est théoriquement possible, il faut l'aspirer et l'éditer avec Dreamweaver ou un logiciel similaire.

Si vous débutez, je vous conseille plutôt de regarder du coté de https://en.wordpress.com/signup/ : vous pouvez (gratuitement) créer votre blog et le personnaliser. On peut aujourd'hui utiliser un moteur de blog pour créer des sites très variés, comme des magazines, des albums photos, des sites "plaquettes d'entreprise", des bourses d'emploi, des eboutiques ou encore des réseaux sociaux :)


On 2012-07-08, boudoubou73: Hey !
J'utilise depuis plusieurs années Httrack et je n'ai jamais eu vraiment de soucis...jusqu'à ce soir ! Un site, que j'avais commencé à aspirer une fois, http://team-tch.ucoz.net/, a bloqué l'aspiration. Un robot bloque. Mais même en paramétrant cela, les pages sont bloquées parce qu'il faut un login et mdp... Comment faire ? J'ai essayé de passer par un proxy (ca fonctionnait l'année dernière mais plus maintenant).
Est-ce que tu pourrais m'aider stp ?
Merci d'avance =)


On 2012-07-09, Olivier: Les propriétaires de site web bloquent parfois leur aspiration. C'est souvent le cas lorsque le modèle économique qui supporte le site web est basé sur les "visites online" des utilisateurs et des internautes.

Dans tonc cas @boudoubou73, je te conseillerais d'aspirer le site "section par section", cela te permettra ainsi d'identifier la section maintenant protégée. Pour tenter de passer outre ces protections, il faut tout d'abord tenter de saisir son login/password dans httracks :



Et si cela ne marche pas, il faudra essayer de contacter le webmaster du site et lui demander si il est possible d'obtenir une copie du site sur CD :) Parfois, les webmasters cherchent à protéger leur site par principe (ils souhaitent ainsi être avertis de tout usage potentiel de leur création) mais sont ouverts à leur utilisations hors ligne :)


On 2012-08-06, Jeromeweb, webmaster liens geeks: Bonsoir,
Je confirme, très simple mais très efficace ce logiciel.
J'avais testé l'aspiration d'une plateforme de blog il y a qqes temps et il a telechargé 10 GO de pages/images!?!


On 2012-08-16, Alain: Bonjour,
J'ai créé pour une association un site web avec quomodo...
http://club.quomodo.com/lesgodas/accueil.html
Pour le faire découvrir lors d'une réunion publique, je souhaite l'aspirer sur mon ordi car je n'aurai pas de connexion...
Le problème est que même en variant les réglages selon les messages ci-dessus, J'ai des erreurs et j'aspire bien les pages, mais les liens ne fonctionnent pas.

Pouvez-vous m'aider
Bien cordialement


On 2012-08-16, Olivier: Pas toujours facile d'aspirer un site ... @Alain: "Les liens ne fonctionnent pas", Quel type d'erreur avez-vous lorsque vous cliquez sur ces liens ? Une erreur 404 ou alors êtes vous redirigé vers la version online ?


On 2012-08-16, Alain: Merci de votre réponse rapide,
J'ai ceci par exemple : Firefox ne peut trouver le fichier à l'adresse jar:file:///C:/Program Files/Mozilla Firefox/omni.ja!/chrome/browser/content/browser/undefinedl_associationle_mot_du_president.html.


On 2012-08-18, Alain: Bonjour, suite à mon dernier message, je vous précise le type d'erreurs que je rencontre : il y a en effet des erreurs 404
Voici le journal d'erreurs de Httrack
merci de votre aide

HTTrack3.46 htsswf htsjava launched on Sat, 18 Aug 2012 08:59:58 at http://club.quomodo.com/lesgodas *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe
(winhttrack -qwC2%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "fr, en, *" http://club.quomodo.com/lesgodas -O1 "C:\Mes Sites Web\godas" *.css *.js -ad.doubleclick.net/* -mime:application/foobar *.gif *.jpg *.png *.tif *.bmp *.zip *.tar *.tgz *.gz *.rar *.z *.exe )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
09:07:54 Error: "Not Found Condition Intercepted" (404) at link club.quomodo.com/lesgodas/index_qlub_view.html (from club.quomodo.com/lesgodas/accueil.html)
09:07:54 Warning: File has moved from club.quomodo.com/ to http://www.quomodo.com/
09:07:55 Error: "Not Found" (404) at link core3.quomodo.com/services/artemapage@fr/images/iconinfo19.png (from core2.quomodo.com/styleauto/auto_qlub.css?v=67)
09:07:55 Error: "Not Found" (404) at link core2.quomodo.com/styleauto/ellipsis-xbl.xml (from core2.quomodo.com/styleauto/auto_qlub.css?v=67)
09:07:55 Error: "Not Found" (404) at link core2.quomodo.com/services/nws/images/add32.png (from core2.quomodo.com/styleauto/auto_qlub.css?v=67)
09:07:55 Error: "Not Found Condition Intercepted" (404) at link club.quomodo.com/lesgodas/custom/images/tabbutton.png?06A66BE4-94E8-4DE1-9623-8ED92AFBEB73 (from club.quomodo.com/lesgodas/custom/style/qlub0.css?v=20120803131047)
09:07:55 Error: "Not Found Condition Intercepted" (404) at link club.quomodo.com/lesgodas/XMLFile=uploads/publicsndata/01000000007/gallery.xml?1344014765741 (from club.quomodo.com/lesgodas/l_association/le_mot_du_president.html)
09:07:58 Error: "Not Found Condition Intercepted" (404) at link club.quomodo.com/lesgodas/XMLFile=uploads/publicsndata/02000000008/gallery.xml?1340136684294 (from club.quomodo.com/lesgodas/les_activites/conferences/12_mai_2012.html)
09:07:58 Error: "Not Found Condition Intercepted" (404) at link club.quomodo.com/lesgodas/XMLFile=uploads/publicsndata/03000000007/gallery.xml?1343395744295 (from club.quomodo.com/lesgodas/les_activites/randonnee/13_mai_2012.html)
HTTrack Website Copier/3.46 mirror complete in 8 minutes 42 seconds : 421 links scanned, 411 files written (21901325 bytes overall) [12653038 bytes received at 24239 bytes/sec], 12157709 bytes transfered using HTTP compression in 81 files, ratio 22%, 3.1 requests per connection
(8 errors, 1 warnings, 0 messages)


On 2012-08-20, Olivier: A priori 8 liens ne fonctionnent pas car les pages semblent avoir changées de place : "File has moved from club.quomodo.com/ to http://www.quomodo.com/" ? Il faudrait vérifier que vos liens (sur la version en ligne) sont correctement dirigés.

Moins important : "Not Found (404) at link core2.quomodo.com/services/nws/images/add32.png" indique que certains fichiers de quomodo sont introuvables (ici une image publicitaire).

Les solutions possibles :

1) Le rapport d'erreur ne signale que 8 liens problématiques. Si seul 8 liens sont vraiment en causes, il peut être judicieux de les modifier à la main dans la copie aspirée. Cela permettra même de graver le site sur CD pour le communiquer à vos contacts :)

2)Une autre solution peut être de repérer les liens qui ne marchent pas et d'écrire le scénario de votre démo en évitant de cliquer dessus.


3)Pourquoi ne pas contacter Quomodo et leur soumettre votre problématique ? En tant qu'utilisateur, vous êtes en fait client ... soit payant car vous avez choisi la formule à 150€ annuel, soit en tant que partenaire car vous ne payez rien à Quomodo mais leur permettez d'utiliser votre activité pour faire de la publicité et réaliser ainsi une plus valu financière. Quomodo indique (sur son site) inclure dans ses prestations une "assistance", alors n'hésitez pas à les contacter pour bénéficier de leur service :)


4)Pour de simples démos, on peut aussi se contenter de captures d'écran. Il suffit de prendre des "photos" des écrans les plus intéressant du site et de pouvoir ainsi les montrer "hors connexion".


On 2012-09-22, christian: bonjour,

je viens de decouvrir votre "blog" et httrack ce matin, je l'ai utilisé pour expérimenter.
J'aimerais savoir s'il existe une configuration particuliere pour n'aspirer qu'une partie d'un site : www.nomdusite.com/partie2.html

j'ai fait l'essai en copiant l'url ci-dessus, httrack a aspiré l’entièreté www.nomdusite.com

les caracteres accentuées dans les noms de dossiers et de fichiers sont remplacés par ?

exemple : dossier "fiché" est "fich?" dans l'arborescence du site aspiré sur hdd local, et le fichier "nommé.pdf" est nomm?.pdf" et le lecteur pdf du pc ne veut pas l'ouvrir

merci


On 2012-09-27, Olivier: Pour aspirer seulement quelques pages d'un site, l'idéal est de lister les urls des pages en question (dans l'étape 2) et de choisir une profondeur des liens de 1 voire de 0 :)


On 2012-10-01, seb87: bonsoir à tous, voici mon soucis je souhaite aspirer un site "lulu le lutin malin" (site pour enfant avec des jeux très bien faits) mais mon soucis est que toutes les pages sont aspirer mais pas les images donc difficiles de jouer
est ce que quelqu'un pourrait venir à mon aide, je vous en remercie d'avance
cordialement seb87


On 2012-11-07, Serge: Bonjour,
Après avoir tester plusieurs paramétrages, je me décide également à poster pour obtenir de l'aide. Je tente de récupérer le site http://boisgontierjacques.free.fr/ mais j'ai une erreur à chaque fois. L'erreur est la suivante :
Error: "Connect Error" (-4) after 2 retries at link boisgontierjacques.free.fr/ (from primary/primary)
Merci pour votre aide.


On 2012-11-22, clamazou: Bonjour,
Je tente d'aspirer ce manuel d'utilisation d'appareil photo Sony disponible en ligne seulement.
Il est constitué de plusieurs chapitres, chaque chapitre ayant des sous-chapitres, qui eux-mêmes en comportent parfois, etc. Le niveau de profondeur n'est pas très grand, mais parfois au bas d'un article, il y a un renvoi vers une entrée qui correspond avec un sous-chapitre (qui oblige à remonter puis à descendre en quelque sorte)
Quand j'utilise HTTrack, il refuse d'aspirer ce lien.
Par exemple si je fais:
-Prise de vue...Utilisation des fonctions de prise de vue/Mise au point continue et que je tente d'accéder à Détection de visage, j'ai un message d'erreur. En effet, Détection de visage est aussi une entrée du menu Utilisation des paramètres MENU (Prise de vue).
HTTrack semble ne permettre d'accéder à un lien que par un seul chemin, alors que dans ce fichier il pourrait y en avoir d'autres.
Comment faire?
Merci de toute aide
clamazou


On 2012-11-30, Yohan: Bonjour à tous,

J'essaye d'aspirer ce site internet http://homeopathiepourchien.free.fr/ pour pouvoir l'utiliser hors ligne (rarement). Je suis éducateur canin et ce site est une petite merveille pour moi.

Le soucis est que j'arrive à l'aspirer, mais une fois que je le parcours il m'est complètement impossible de la parcourir :'(.

1er page : Je clique sur continuer (jusque là tout va bien :D)
2eme page : Je clique sur Chien (la aussi ça roule)
3eme page : C'est la que ça coince ... En effet des que je clique sur "Indication" ou sur "Uniciste" je voie un rond de chargement qui tourne sans cesse ... mais rien ne se charge en fait, j'ai essayer d'attendre pendant des heures mais rien ...

J'aimerai savoir si chez vous c'est pareil ou pas ?

Cordialement.

Yohan


On 2012-12-02, Olivier: Bonjour Yohan,

L'animation de la 3eme page est une animation flash, pas toujours simple à aspirer. Il te faut déjà vérifier que le paramètre suivant contient bien *.swf (l'extension des animations flash) :


Cependant j'ai l'impression que seulement quelques pages du site nous intéressent : celle avec le formulaire ... aussi le plus simple est de les visiter et d’utiliser la fonctionnalité Enregistrer sous de ton navigateur. En testant sur un de ces formulaires je me rend compte que cela fonctionne bien :)

Dis moi si cela t'aide ?


On 2012-12-02, Olivier: @Serge: de mon coté j'arrive à aspirer http://boisgontierjacques.free.fr/ sans difficulté. As-tu toujours la même erreur de ton coté ?

@clamazo , @Seb87: il faudrait nous en dire un peu plus ... l'url des sites que vous évoquez notamment :)


On 2012-12-03, Serge: J'ai toujours la même erreur.
Je passe par un proxy. J'ai donc mis l'adresse et le port. J'essaierai de chez moi pour voir...

HTTrack3.46+htsswf+htsjava launched on Mon, 03 Dec 2012 13:32:30 at http://boisgontierjacques.free.fr +*.png +*.gif +*.jpg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar
(winhttrack -qiC1%Ps2u1%s%uN0%I0p3DaK0H0%kf2A25000%f#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -P 10.183.43.109:8080 -%l "fr, en, *" http://boisgontierjacques.free.fr -O1 C:\Users\YSGI7391\Documents\Perso\VBA\Excel +*.png +*.gif +*.jpg +*.css +*.js -ad.doubleclick.net/* -mime:application/foobar )
Information, Warnings and Errors reported for this mirror:
note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
such as username/password authentication for websites mirrored in this project
do not share these files/folders if you want these information to remain private
13:32:31 Error: "Connect Error" (-4) after 2 retries at link boisgontierjacques.free.fr/robots.txt (from primary/primary)
13:32:33 Error: "Connect Error" (-4) after 2 retries at link boisgontierjacques.free.fr/ (from primary/primary)
13:32:33 Info: No data seems to have been transfered during this session! : restoring previous one!



Comments are now closed.



Who is behind this blog?

I'm passionate about what I do, and I love to help people


Nothing is more fulfilling than being part of a team with similar interests, and an organization that values its employees


ABOUT ME