1.参数
-r
:递归;-p
:–page-requisites(页面必需元素);-np
:–no-parent(不抓取父级目录); 开启该开关后如上方举例,就只会抓取plugin
下面的文件,不会探索上级目录(即便页面中有父级目录链接)。-k
:将下载的HTML页面中的链接转换为相对链接即本地链接;-e robots=off
:强制绕过robots.txt
定义的不允许抓取的地址;--user-agent="Mozilla/5.0 (lxnchan) Firefox/3.0.3"
:定义UA防止被规则匹配限流;-nc
:断点续传;-nd
:不在本地按照网站结构创建子目录,将所有抓取到的文件装在一个文件夹内;--accept=docx,xlsx,pptx,dotm
:仅抓取指定格式的文件;--reject=html,css,js,png,jpg
:排除指定格式的文件;--referrer go.microsoft.com
:指定Refer;--header="Accept: text/html"
:设置Header。
- 抓取网站
bash
wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/
wget -r -p -np -k -e robots=off https://repo.jellyfin.org/releases/plugin/