爬虫

By admin, 7 八月, 2017

下载网页及一层链接:

wget -k -r -l1 <URL>

对网站做镜像,已下载过的网页如果有更新也会重新下载:

wget -m <URL>

下载整个网站,已下载过的网页不再下载(也不检查是否有更新):

wget -r -l inf --no-remove-listing -nc <URL>

如果想排除一些文件,可以这样:

wget --reject *.zip

评论

Restricted HTML

  • 允许的HTML标签:<a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id> <img src>
  • 自动断行和分段。
  • 网页和电子邮件地址自动转换为链接。
验证码
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
请输入"Drupal10"