欢迎光临
我们一直在努力

wget 下载整个网页和css、js、图片数据

想要抓取网站的一个页面,包括css、图片、js的文件,用 Chrome、FireFox 去另存为成网页不行,有些数据不能下载下来。

wget 就可以下载网页及其依赖

# 这个可以将整个页面下载下来。
wget -l 1 -p -np -k http://www.domain.com/page.html
# 可以抓取整站
wget -c -r -nd -np -k -L -p http://www.domain.com

wget 参数

-V 版本信息
-h 帮助信息
-b 后台执行Wget
-o filename 把记录放在文件filename
-a filename 把记录附加在文件filename
-d 显示调试信息
-q 无输出下载方式
-v 详细的屏幕输出(默认)
-nv 简单的屏幕输出
-i inputfiles 从文本文件内读取地址列表
-F forcehtml 从html文件内读取地址列表
-t number number次重试下载(0时为无限次)
-O output document file 写文件到文件
-nc 不覆盖已有的文件
-c 断点下传
-N 时间时间戳。该参数指定wget只下载更新的文件,也就是说,与本地目录中的对应文件的长度和最后修改日期一样的文件将不被下载。
-S 显示服务器响应
-T timeout 超时时间设置(单位秒)
-w time 重试延时(单位秒)
-Y proxy=on/off 是否打开代理
-Q quota=number 重试次数

目录:
-nd –no-directories 不建立目录。
-x, –force-directories 强制进行目录建立的工作。
-nH, –no-host-directories 不建立主机的目录。
-P, –directory-prefix=PREFIX 把档案存到 PREFIX/…
–cut-dirs=NUMBER 忽略 NUMBER 个远端的目录元件。

HTTP 选项:
–http-user=USER 设 http 使用者为 USER.
–http0passwd=PASS 设 http 使用者的密码为 PASS.
-C, –cache=on/off 提供/关闭快取伺服器资料 (正常情况为提供).
–ignore-length 忽略 `Content-Length’ 标头栏位。
–proxy-user=USER 设 USER 为 Proxy 使用者名称。
–proxy-passwd=PASS 设 PASS 为 Proxy 密码。
-s, –save-headers 储存 HTTP 标头成为档案。
-U, –user-agent=AGENT 使用 AGENT 取代 Wget/VERSION 作为识别代号。
FTP 选项:
–retr-symlinks 取回 FTP 的象徵连结。
-g, –glob=on/off turn file name globbing on ot off.
–passive-ftp 使用 “passive” 传输模式。

使用递回方式的取回:
-r, –recursive 像是吸入 web 的取回 — 请小心使用!.
-l, –level=NUMBER 递回层次的最大值 (0 不限制).
–delete-after 删除下载完毕的档案。
-k, –convert-links 改变没有关连的连结成为有关连。
-m, –mirror 开启适合用来映射的选项。
-nr, –dont-remove-listing 不要移除 `.listing’ 档。

递回式作业的允许与拒绝选项:
-A, –accept=LIST 允许的扩充项目的列表
. -R, –reject=LIST 拒绝的扩充项目的列表。
-D, –domains=LIST 允许的网域列表。
–exclude-domains=LIST 拒绝的网域列表 (使用逗号来分隔).
-L, –relative 只跟随关联连结前进。
–follow-ftp 跟随 HTML 文件里面的 FTP 连结。
-H, –span-hosts 当开始递回时便到外面的主机。
-I, –include-directories=LIST 允许的目录列表。
-X, –exclude-directories=LIST 排除的目录列表。
-nh, –no-host-lookup 不透过 DNS 查寻主机。
-np, –no-parent 不追朔到起源目录。
未经允许不得转载:798VPS » wget 下载整个网页和css、js、图片数据

相关推荐

  • 暂无文章