Sérène Forum de Jeu de Rôle

Vous n'êtes pas connecté. Connectez-vous ou enregistrez-vous

Transfert du forum

Voir le sujet précédent Voir le sujet suivant Aller en bas  Message [Page 1 sur 1]

1 Transfert du forum le Jeu 13 Nov - 3:53

Bon, l'aspirateur à forum fonctionne, je l'ai testé sur celui-ci et j'ai tout.
Par contre c'est putain de long parce que je dois limiter le nombre de connexions à 1/secondes, sinon y'a des protections anti-bots.
Bref, il m'a fallut plus de 35mn pour collecter ce forum-ci (et l'horloge tourne encore), donc imaginez le "vrai" ^^

Bref, on va bientôt pouvoir tranquillement tout recopier ici (ou héberger chez Glorek ?).

Voilà, je vous tiens au courant ^^

Voir le profil de l'utilisateur

2 Re: Transfert du forum le Jeu 13 Nov - 11:18

Hum, ça risque de prendre des siècles pour Séléné, comment ça fonctionne ? Y a t-il moyen de prioriser ce que l'on veut aspirer ou ne peut-on pas faire de distinction ?

Voir le profil de l'utilisateur

3 Re: Transfert du forum le Jeu 13 Nov - 11:37

Il semblerait qu'on puisse sélectionner certaines sous-adresses pour éviter de copier n'importe quoi.
La par exemple j'ai copié toutes les pubs possibles et imaginables du site :p

Je pense que je ferai plutôt des sous-copies par catégories, ce sera plus long à programmer mais moins long à exécuter.
J'utilise WinHTTrack Website Copier au passage.

Mais si vous voulez tester vous même, voici ce qu'il faut savoir :

Après avoir inséré l'URL du site à copier (je vous fais confiance pour arriver jusque là), il faut enregistrer le système d'identification.
Pour ça, il faut:
1) Aller sur la page login du site
2) Entrer les valeurs dans les champs du formulaire de connexion (identifiant/mot de passe)

3) Cliquer sur "Capturer l'URL", puis régler mozilla selon ce qui est demandé (Outil/Option/Avancé/Reseau/Connexion/Parametres : Configuration manuelle du proxy).

4) Dans mozilla, cliquer sur "Envoyer" comme pour se connecter normalement.
5) En passant par le proxy, le programme sera automatiquement mit au courant de ce qu'il doit faire pour se connecter (il aura enregistré le formulaire de connexion ?)
6) Dans les options de copie du site, limiter le nombre de connexions à 1/seconde
7) TOUT VERIFIER 3 FOIS
8) Go : attendre 2 heures ^^

Et donc mon petit conseil : ne copier qu'un seul morceau à la fois en limitant l'adresse du site (exemple : "www.site.com/shadowrun" au lieu de "www.site.com")

Voilà ^^

PS : MEGA IMPORTANT POUR ALLER PLUS VITE : ne pas copier les images/videos/sons. Ça peut être utile...normalement c'est désactivé mais je l'avais activé comme un noob.

Voir le profil de l'utilisateur

4 Re: Transfert du forum le Jeu 13 Nov - 14:36

De toute façon, même si la capture dure une journée c'est pas grave, ça sera toujours plus rapide qu'à la main. On a un temps limite de quelques heures pour tout reprendre ?

Le hic c'est que tu ne peux pas limiter à un sous-forum précis, vu que l'adresse où tu démarre c'est ta capture, donc ta page de login. Il va commencer de la page de login et après descendre les liens, sauf si tu t'amuse à modifier les filtres. J'ai trouvé ça sur leur forum :

Code:
[b]At this point you could click Next and run the project, however because the starting URL is within the "Account/" directory (www.blitzbasic.com/Account/_login.php) the project will be scoped to only download anything in Account and below.

Because my purpose is to mirror the homepage and the Blitz3D manual, I will add some Filters to control where HTTrack crawls.

Click the Set options button and select the Scan Rules tab. Set the filters to:[/b]

-*
+www.blitzbasic.com/Home/_index_.php
+www.blitzbasic.com/Manuals/_index_.php
+www.blitzbasic.com/b3ddocs/*
+*.png +*.gif +*.jpg +*.css +*.js
Line-by-line this means:

Exclude all files and links
Allow the homepage
Allow the Manuals index page
Allow all pages in the b3ddocs directory
Allow these filetypes (from any server)


Ensuite méfie toi des images / vidéos / son que tu retire : par exemple si tu ne récupère pas les images, et surtout hébergé ailleurs, tu n'auras peut-être pas les images de Wild, de Minecraft, ou même ce qu'on a pu faire (quand je récupère une image d'un autre site et que j'y met le lien).
Normalement l'aspirateur prend le même temps de chargement que lorsque tu navigue. Si une page web met 2 secondes à s'afficher, et que tu as 1000 pages web à afficher, ça te donnera 2000 secondes (environ 30min) à tout récupérer.

Ça c'est la théorie... j'essaie de tester du boulot mais j'en chie... c'est qu'on a déjà un proxy et que le paramétrage nous est forcé sur chaque poste
Dès que j'arrive à régler tout ça je regarde ce qu'il en est pour les liens.


_________________


Shadowrun : Kitty - Rifler Face


Earthdawn : Avadon - Chasseur d'Horreurs


Qin : Maître de jeu
Voir le profil de l'utilisateur

5 Re: Transfert du forum le Jeu 13 Nov - 17:58

OK j'ai regardé un peu :

Ne te bride pas. Le système anti-bot que tu croyais c'est normal, c'est le rebond des liens sur les pages de connexion. Laisse tout en mode d'origine sauf la limite des liens : interne passe à 5 et externe laisse à 0.
Je me suis retrouvé un peu limité avec la bande passante réservé (25 KB), j'ai donc augmenté afin que ca aille un peu plus rapidement.(2500KB, mais n'arrive pas à l'exploiter).

Au final le premier test : fail au niveau du login. Ca m'a pris 6 min. J'ai relancé et ca m'a mis 13 min, avec une partie à cause des images hébergés sur mon NAS...


_________________


Shadowrun : Kitty - Rifler Face


Earthdawn : Avadon - Chasseur d'Horreurs


Qin : Maître de jeu
Voir le profil de l'utilisateur

Contenu sponsorisé


Voir le sujet précédent Voir le sujet suivant Revenir en haut  Message [Page 1 sur 1]

Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum