Dica: Baixando sites inteiros com o wget


17-10-2007
Dica: Baixando sites inteiros com o wget
[17/10] :. Dica: Baixando sites inteiros com o wget: Muitas vezes você encontra um site cheio de coisas interessantes, mas não dispõe de tempo para ler on line na hora. Ou, encontra algo tão importante que pretende guardar em CD ou DVD, para nunca perder. Há programas que podem baixar os sites inteiros, sem que você precise entrar e clicar em link por link. Existem vários programas que se propõem a isso, a maioria para Windows, normalmente pagos. Mas há muito tempo há uma outra solução gratuita e aberta, muito conhecida pelos usuários de Linux: o wget. Por Marcos Elias Picão

http://www.guiadohardware.net/dicas/...ites-wget.html

Comente aqui!
17-10-2007
Achei de mais , sempre gostei desse wget , melhor até que o 'DAP' e puxa rápido (a não ser que no puxa rápido você pode limitar a quantidade de kb/s -taxa de transferência- e navegar sem problemas de lentidão) , mas como (eu) somo(s) usuário(s) linux não é tão necessário assim , mas adorei , não sabia desse poder escondido do wget !!!!!!
17-10-2007
Citação:
Postado Originalmente por carlos007anjo Ver Mensagens
Achei de mais , sempre gostei desse wget , melhor até que o 'DAP' e puxa rápido (a não ser que no puxa rápido você pode limitar a quantidade de kb/s -taxa de transferência- e navegar sem problemas de lentidão) , mas como (eu) somo(s) usuário(s) linux não é tão necessário assim , mas adorei , não sabia desse poder escondido do wget !!!!!!
O wget permite também limitar a taxa de transferência em uso por ele Não lembro agora e ñ tenho como ver pq já estou indo dormir, se alguém não postar antes eu posto aqui assim que pegar... É que no texto comentei + sobre os recursos básicos
18-10-2007
Eu usei nesse formato e puxou tudo, tudo mesmo de um site que queria fazer um back-up

wget -c -r ftp://nome-do-usuario:senha@ftp.seu-dominio/public_html/

Vc informa o usuario e a senha de seu ftp e baixa tudo de seu site, e bem mais rápido que um ftp normal


Muito bom mesmo!
18-10-2007
Bem legal a dica e agora tem wget para o Windows, essa eu não conhecia, Muito bom essa dica.
19-10-2007
Meu fantastico, e ainda um texto responsavél, colocando de maneira séria todas as consequencias morais.
Parabens mesmo.
19-10-2007
Citação:
Postado Originalmente por marcoselias Ver Mensagens
O wget permite também limitar a taxa de transferência em uso por ele Não lembro agora e ñ tenho como ver pq já estou indo dormir, se alguém não postar antes eu posto aqui assim que pegar... É que no texto comentei + sobre os recursos básicos
E ai nada ?
19-10-2007
Boa dia,

Parabéns pelo texto.
E apenas para divulgar, existe uma ferramenta específica para clonar sites, o httrack:

http://www.httrack.com/


Fiquem com Deus

Kali
19-10-2007
O wget não serve apenas para baixar sites inteiros, serve também para baixar arquivos.
Eu tenho aqui o MAME (emulador de arcade) e vez outra aparece atualização de roms que muitas vezes pode ser centenas de novos arquivos(roms), imagina você ficar clicando link por link para cada arquivo.

O que você faz?

Cria um arquivo de texto com um nome qualquer, arquivos.txt por exemplo e dentro dele você coloca os links para os arquivos, depois de salvar o arquivo use o wget para baixar com o comando:

Código:
wget -ci arquivos.txt
E assim o wget vai baixando todos os arquivos listados no arquivo texto arquivos.txt, pode ser qualquer coisa, inclusive fotos.
19-10-2007
Excelente texto.
Dificilmente agente vê pela web uma explicação tão clara e completa no uso, mesmo que básico, de comandos do terminal do Linux.
Acompanho os artigos do site regularmente e gostaria de parabenizar o autor por todas as contribuições ao site e por seus artigos cada vez mais interessantes.

Abraço,
Nico
19-10-2007
Citação:
Postado Originalmente por carlos007anjo Ver Mensagens
E ai nada ?
Po cara infelizmente não tou achando, eu juro que li isso em algum lugar

Não tou com o Linux agora por problemas de indecisão sobre qual instalar, tente ver com o man wget...

Na versão para Windows, o comando de ajuda é o parâmetro --help. Continuo procurando, pra postar aqui, pq eu mesmo não costumo limitar as transferências de downloads...

Acho que não vale a pena, sabe? Em boa parte do tempo da navegação, exceto quando vc faz download de arquivos (especialmente grandes) ou mantém programas P2P abertos, a sua banda fica a maior parte do tempo ociosa. Ao acessar um site, depois de baixada a página vc lê, e nesse tempo nada está usando a conexão. Limitar o wget ou outro programa faz com que ele sempre opere naquela velocidade, já não limitar permite que ele atinja maiores taxas de download em tempos de banda ociosa, baixando o que vc quer mais rápido. Talvez valha + a pena limitar para quem tem conexão muito lenta ou discada... Não sei.

Normalmente não tenho nada a reclamar, mesmo com programas P2P abertos, ISOs baixando e um wget por trás, consigo navegar normalmente... Tanto o Windows como o Linux parecem distribuir bem as requisições dos programas, de modo que o wget não "*****" toda a conexão.

Quando um programa "*****" muito, o que eu faço às vezes é diminuir a prioridade de processamento para ele, ele fica mais lerdo e conseqüentemente baixa as coisas mais devagar, visto que o programa em primeiro plano além dos outros com prioridades normais ou altas terão melhor desempenho.

Ah e valeu a todos que elogiam meus textos, tanto no GdH como nos meus sites/blogs, é mto gratificante

POXA VIDA O VERBO C H U P A R FOI "ASTERISCADO" AQUI, SÓ FALTA EU LEVAR UMA BRONCA POR PALAVRA CHULA... EU ME REFERIR A CH... A CONEXÃO!
19-10-2007
Todas as opções do wget são estas:
Código:
GNU Wget 1.10.2, a non-interactive network retriever. Usage: wget [OPTION]... [url]... Mandatory arguments to long options are mandatory for short options too. Startup: -V, --version display the version of Wget and exit. -h, --help print this help. -b, --background go to background after startup. -e, --execute=COMMAND execute a `.wgetrc'-style command. Logging and input file: -o, --output-file=FILE log messages to FILE. -a, --append-output=FILE append messages to FILE. -d, --debug print lots of debugging information. -q, --quiet quiet (no output). -v, --verbose be verbose (this is the default). -nv, --no-verbose turn off verboseness, without being quiet. -i, --input-file=FILE download URLs found in FILE. -F, --force-html treat input file as HTML. -B, --base=URL prepends URL to relative links in -F -i file. Download: -t, --tries=NUMBER set number of retries to NUMBER (0 unlimits). --retry-connrefused retry even if connection is refused. -O, --output-document=FILE write documents to FILE. -nc, --no-clobber skip downloads that would download to existing files. -c, --continue resume getting a partially-downloaded file. --progress=TYPE select progress gauge type. -N, --timestamping don't re-retrieve files unless newer than local. -S, --server-response print server response. --spider don't download anything. -T, --timeout=SECONDS set all timeout values to SECONDS. --dns-timeout=SECS set the DNS lookup timeout to SECS. --connect-timeout=SECS set the connect timeout to SECS. --read-timeout=SECS set the read timeout to SECS. -w, --wait=SECONDS wait SECONDS between retrievals. --waitretry=SECONDS wait 1..SECONDS between retries of a retrieval. --random-wait wait from 0...2*WAIT secs between retrievals. -Y, --proxy explicitly turn on proxy. --no-proxy explicitly turn off proxy. -Q, --quota=NUMBER set retrieval quota to NUMBER. --bind-address=ADDRESS bind to ADDRESS (hostname or IP) on local host. --limit-rate=RATE limit download rate to RATE. --no-dns-cache disable caching DNS lookups. --restrict-file-names=OS restrict chars in file names to ones OS allows. --user=USER set both ftp and http user to USER. --password=PASS set both ftp and http password to PASS. Directories: -nd, --no-directories don't create directories. -x, --force-directories force creation of directories. -nH, --no-host-directories don't create host directories. --protocol-directories use protocol name in directories. -P, --directory-prefix=PREFIX save files to PREFIX/... --cut-dirs=NUMBER ignore NUMBER remote directory components. HTTP options: --http-user=USER set http user to USER. --http-password=PASS set http password to PASS. --no-cache disallow server-cached data. -E, --html-extension save HTML documents with `.html' extension. --ignore-length ignore `Content-Length' header field. --header=STRING insert STRING among the headers. --proxy-user=USER set USER as proxy username. --proxy-password=PASS set PASS as proxy password. --referer=URL include `Referer: URL' header in HTTP request. --save-headers save the HTTP headers to file. -U, --user-agent=AGENT identify as AGENT instead of Wget/VERSION. --no-http-keep-alive disable HTTP keep-alive (persistent connections). --no-cookies don't use cookies. --load-cookies=FILE load cookies from FILE before session. --save-cookies=FILE save cookies to FILE after session. --keep-session-cookies load and save session (non-permanent) cookies. --post-data=STRING use the POST method; send STRING as the data. --post-file=FILE use the POST method; send contents of FILE. HTTPS (SSL/TLS) options: --secure-protocol=PR choose secure protocol, one of auto, SSLv2, SSLv3, and TLSv1. --no-check-certificate don't validate the server's certificate. --certificate=FILE client certificate file. --certificate-type=TYPE client certificate type, PEM or DER. --private-key=FILE private key file. --private-key-type=TYPE private key type, PEM or DER. --ca-certificate=FILE file with the bundle of CA's. --ca-directory=DIR directory where hash list of CA's is stored. --random-file=FILE file with random data for seeding the SSL PRNG. --egd-file=FILE file naming the EGD socket with random data. FTP options: --ftp-user=USER set ftp user to USER. --ftp-password=PASS set ftp password to PASS. --no-remove-listing don't remove `.listing' files. --no-glob turn off FTP file name globbing. --no-passive-ftp disable the "passive" transfer mode. --retr-symlinks when recursing, get linked-to files (not dir). --preserve-permissions preserve remote file permissions. Recursive download: -r, --recursive specify recursive download. -l, --level=NUMBER maximum recursion depth (inf or 0 for infinite). --delete-after delete files locally after downloading them. -k, --convert-links make links in downloaded HTML point to local files. -K, --backup-converted before converting file X, back up as X.orig. -m, --mirror shortcut for -N -r -l inf --no-remove-listing. -p, --page-requisites get all images, etc. needed to display HTML page. --strict-comments turn on strict (SGML) handling of HTML comments. Recursive accept/reject: -A, --accept=LIST comma-separated list of accepted extensions. -R, --reject=LIST comma-separated list of rejected extensions. -D, --domains=LIST comma-separated list of accepted domains. --exclude-domains=LIST comma-separated list of rejected domains. --follow-ftp follow FTP links from HTML documents. --follow-tags=LIST comma-separated list of followed HTML tags. --ignore-tags=LIST comma-separated list of ignored HTML tags. -H, --span-hosts go to foreign hosts when recursive. -L, --relative follow relative links only. -I, --include-directories=LIST list of allowed directories. -X, --exclude-directories=LIST list of excluded directories. -np, --no-parent don't ascend to the parent directory. Mail bug reports and suggestions to <bug-wget@gnu.org>.
19-10-2007
Ae, eu sabia que tinha:

--limit-rate=X

Onde X é o número de bytes por segundo. Se quiser em kbytes, coloque um "k" depois do número, ou "m" para megabytes ("bytes" e não "bits", aqui). Exemplos:

--limit-rate=20k

--limit-rate=1m

O parâmetro de ajuda quase nunca exibe toooodos os comandos do programa

Nota: isso eu peguei no manual do wget direto do GNU (salve, Google):

http://www.gnu.org/software/wget/man..._002c-limit-45

Não sei se funcionaria na versão que foi portada para o Windows.
19-10-2007
é, eu tinha uma duvida mas ja foi esclarecida no tutorial, porem entao tenho uma pergunta, existe outro programa que baixe arquivos css, js? ou melhor, que reconhece os links criados por java script? ou por tags como

Código:
<style type="text/css"> @import url('css/estilo.css'); </style>
E que reconheca os arquivos imagens que estao sendo referenciador pelo arquivo css/estilo.css ?

ja cansei de procurar, mas nao achei nenhum, tem mais de anos que procuro uma ferramenta assim, ja deu para eu ter copiado muitos sites (mas este nao é meu objetivo, senao teria copiado na mao 'Arquivo-Salvar-Salvar pagina completa'). apenas quero conhecer uma ferramenta inteligente o suficiente para isso.

Ja ate pensei em estudar um pouco mais sobre "expressao regular" para fazer um script que faca isso...

desde ja grato!

Editado:

wuemura, bendita opcao:

Código:
wget -ci arquivos.txt
Me ajudou bastante na hora de copiar 2378, eu tinha 122 arquivos com varios enderecos dentro dele, entao para facilitar:

Código:
find -ctype f -exec wget -ci {} \;
05-12-2007
Em um site que estou baixando em determinado momento ele diz que o arquivo é texto do arquivo é muito longo e para de baixar, há alguma alternativa?
05-12-2007
Citação:
Postado Originalmente por cruzcarneiro Ver Mensagens
Em um site que estou baixando em determinado momento ele diz que o arquivo é texto do arquivo é muito longo e para de baixar, há alguma alternativa?
Talvez o servidor esteja te bloqueando de alguma forma devido a muitas conexaos simultaneas
man wget
tem uma opcao para vc setar quantas conexaos o wget vai fazer por segundo/minuto/hora.... eu nao lembro qual era a opcao, mas tem
03-03-2008
alguem sabe que opção eu coloco para que o wget só baixe arquivos até um determinado tamanho?
03-03-2008
Muito boa dica, valeu !
 
Guia do Hardware Melhores Tópicos