Skip to content

1.参数

  • -r:递归;
  • -p:–page-requisites(页面必需元素);
  • -np:–no-parent(不抓取父级目录); 开启该开关后如上方举例,就只会抓取plugin下面的文件,不会探索上级目录(即便页面中有父级目录链接)。
  • -k:将下载的HTML页面中的链接转换为相对链接即本地链接;
  • -e robots=off:强制绕过robots.txt定义的不允许抓取的地址;
  • --user-agent="Mozilla/5.0 (lxnchan) Firefox/3.0.3":定义UA防止被规则匹配限流;
  • -nc:断点续传;
  • -nd:不在本地按照网站结构创建子目录,将所有抓取到的文件装在一个文件夹内;
  • --accept=docx,xlsx,pptx,dotm:仅抓取指定格式的文件;
  • --reject=html,css,js,png,jpg:排除指定格式的文件;
  • --referrer go.microsoft.com:指定Refer;
  • --header="Accept: text/html":设置Header。
  • 抓取网站
bash
wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/
wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/