最近用heritrix3爬取度娘知道一直失败,能帮找找原因吗?

发布于 2021-11-10 18:33:14 字数 543 浏览 752 评论 1

爬取环境:liunx 谷歌浏览器

工具:heritrix3.0

 

爬取方式

一,全网爬取

关键代码:

  <prop key="seeds.textSource.value">

# URLS HERE

http://zhidao.baidu.com/question

    </prop>

 

二,规则限定爬取

关键代码:

<list>

             <value>^http://zhidao.baidu.com/question.*$</value>

           </list>

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

勿忘初心 2021-11-16 06:50:21

“关键代码”部分放哪个位置了呢?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文