Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
Projet_encadré
Projet_encadré
Publicité
Archives
25 novembre 2007

script avec les pages aspirées.

Dimanche 25 novembre

Voici le nouveau script
Il n'y a rien de très nouveau, puisqu'il s'agissait surtout de faire fonctionner l'ancien script avec la nouvelle arborescence,

On notera donc quelques changements, mais pas de nouvelles notions depuis le dernier script.

A noter simplement, l'utilisation de la commande
basename
qui se présente sous la forme basename nom_du_fichier extension_à_éliminer
et qui nous permet ici de créer un dossier pour chaque langue dans pagesaspirees, en récupérant le nom des dossiers à partir des fichiers .txt du dossier PISTE.

Dans l'invite de commande, durant l'aspiration des pages, nous avons pu observer le "travail" effectué par le script, et ainsi noter que certaines pages n'arrivent pas à être aspirées du premier coup (ligne jaune). Dans ce cas, le script essaye une deuxième fois (en l'occurence, cela a fonctionné la deuxième fois : lignes rouges). Et comme nous avons gardé l'option -t2 qui limite à deux le nombre d'essai, il s'arrête ensuite là.

wget2

D'autre part, certaines pages ne sont pas aspirées et l'invite de commande nous indique une erreur (cadre jaune). A comparer avec les indications de l'invite lorsque la pages est aspirée (cadre rouge)

wget1

voici donc le script :aspir_htmlv3

et le résultat : tableau


Publicité
Publicité
Commentaires
Publicité