WebMagic

WebMagic

文章 155 浏览 208

对抓取失败的url保存起来,延迟抓取

使用spider 抓取页面时,有时候,页面访问会失败(或运行异常),但这个流程是一个整体,必须把抓取失败的页面保存在一个delayQueueSchedualer 里面…

空城仅有旧梦在 2021-11-24 17:48:14 741 0

抓取某个网站 本地正常 服务器上却很快便503

发现了这么一个问题,抓取一个网站,在本地测试时,一切正常,但部署到服务器上,大概20来秒便都是503错误了,curl 某个链接 有这样的输出: &nbsp&l…

梦中楼上月下 2021-11-24 15:04:31 798 0

webmagic如何设置爬取深度?

@黄亿华 您好,请教一个问题:webmagic如何设置爬取的深度?…

悟红尘 2021-11-24 12:46:13 829 0

div[contains(@class, 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢

@黄亿华 你好,想跟你请教个问题:div[contains(@class , 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢 …

巡山小妖精 2021-11-24 02:40:04 796 0

webmagic怎样识别网页编码

@黄亿华 你好,想跟你请教个问题: webmagic中,HttpClientDownloader里 if (charset == null) { String value =httpResponse.getEntity().getContent…

虐人心 2021-11-24 00:34:47 875 0

给作者提几点意见,帮助完善

webmagic总的来说不错,结构合理,代码清晰。 不过我最终还是在0.43的基础上将它改写了,现在用的自己改写的版本,因为如下原因: 1.下载过程中,因…

噩梦成真你也成魔 2021-11-23 13:38:46 924 0

webmagic spider.run() ;后怎么终止

@黄亿华&nbsp,你好! &nbsp &nbsp Spider.create(new DemoPageProcessor()).run() //我只想让他运行几秒中,怎么终止 …

韬韬不绝 2021-11-23 12:12:19 630 0

webmagic 如何整合mongodb

webmagic 如何整合mongodb? 使用的框架是 morphia + mvc 网上查询了 网上的一些题目 和 自己本地尝试,仍不成功。 望大神可以指点指点~ 本人参考过 …

眉黛浅 2021-11-23 03:23:02 1032 0

表格元素抓取疑问?为什么需要多余的tbody

如下的表格: &lttable itemprop="ingredients"&gt &nbsp &nbsp &lttr&gt &nbsp &nbsp &nbsp &nbsp &lttd class="name has-border"&gt &nbsp &nbsp &…

梅窗月明清似水 2021-11-23 00:25:41 888 0

webmagic抓取离散形式的很多网页

@黄亿华 你好,想跟你请教个问题: 我用webmagic抓取股票数据,类似 http://finance.sina.com.cn/realstock/company/sz000622/nc.shtml 每一个地址中…

能否归途做我良人 2021-11-22 21:28:21 769 0

页面内的链接被分页,该如何抓取其他分页中的链接地址?

@黄亿华 你好,想跟你请教个问题:页面内某个列表中的链接只显示20个,多余的会被分到下一页,webmagic该怎么去抓取下一页的链接,不胜感激 …

吃颗糖壮壮胆 2021-11-22 20:31:06 926 0

webmagic里的一个小问题

@黄亿华 你好,想跟你请教个问题: 在webmagic的父pom里,你定义了它的继承关系 &ltparent&gt &ltgroupId&gtorg.sonatype.oss &lt/groupId&gt &ltart…

静谧 2021-11-22 17:47:55 956 0

为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?

为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?…

把昨日还给我 2021-11-22 15:26:25 825 0

webmagic 使用

@黄亿华 你好,想跟你请教个问题: 我用webmagic 下载 http://cctv.cntv.cn/lm/xinwenlianbo/20130201.shtml page.putField("title", page.getHtml()…

狠疯拽 2021-11-22 09:39:43 905 0

如何选择其它保存方式

@黄亿华 你好,想跟您请教个问题:最近一直在研究爬虫,在开源项目中,发现您的API这种实现方式比较合胃口(讨厌配置文件~~)。自己用了一下,感觉非…

牵你的手,一向走下去 2021-11-22 06:35:46 892 0
更多

推荐作者

留蓝

文章 0 评论 0

18790681156

文章 0 评论 0

zach7772

文章 0 评论 0

Wini

文章 0 评论 0

ayeshaaroy

文章 0 评论 0

初雪

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文