WebMagic

WebMagic

文章 155 浏览 209

对抓取失败的url保存起来,延迟抓取

使用spider 抓取页面时,有时候,页面访问会失败(或运行异常),但这个流程是一个整体,必须把抓取失败的页面保存在一个delayQueueSchedualer 里面…

空城仅有旧梦在 2021-11-24 17:48:14 745 0

抓取某个网站 本地正常 服务器上却很快便503

发现了这么一个问题,抓取一个网站,在本地测试时,一切正常,但部署到服务器上,大概20来秒便都是503错误了,curl 某个链接 有这样的输出:        …

梦中楼上月下 2021-11-24 15:04:31 802 0

webmagic如何设置爬取深度?

@黄亿华 您好,请教一个问题:webmagic如何设置爬取的深度?…

悟红尘 2021-11-24 12:46:13 833 0

div[contains(@class, 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢

@黄亿华 你好,想跟你请教个问题:div[contains(@class , 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢 …

巡山小妖精 2021-11-24 02:40:04 800 0

webmagic怎样识别网页编码

@黄亿华 你好,想跟你请教个问题: webmagic中,HttpClientDownloader里 if (charset == null) { String value =httpResponse.getEntity().getContent…

虐人心 2021-11-24 00:34:47 880 0

给作者提几点意见,帮助完善

webmagic总的来说不错,结构合理,代码清晰。 不过我最终还是在0.43的基础上将它改写了,现在用的自己改写的版本,因为如下原因: 1.下载过程中,因…

噩梦成真你也成魔 2021-11-23 13:38:46 928 0

webmagic spider.run() ;后怎么终止

@黄亿华 ,你好!     Spider.create(new DemoPageProcessor()).run(); //我只想让他运行几秒中,怎么终止 …

韬韬不绝 2021-11-23 12:12:19 634 0

webmagic 如何整合mongodb

webmagic 如何整合mongodb? 使用的框架是 morphia + mvc 网上查询了 网上的一些题目 和 自己本地尝试,仍不成功。 望大神可以指点指点~ 本人参考过 …

眉黛浅 2021-11-23 03:23:02 1036 0

表格元素抓取疑问?为什么需要多余的tbody

如下的表格:                                         鲢鱼                                                                 植物油           …

梅窗月明清似水 2021-11-23 00:25:41 892 0

webmagic抓取离散形式的很多网页

@黄亿华 你好,想跟你请教个问题: 我用webmagic抓取股票数据,类似 http://finance.sina.com.cn/realstock/company/sz000622/nc.shtml 每一个地址中…

能否归途做我良人 2021-11-22 21:28:21 773 0

页面内的链接被分页,该如何抓取其他分页中的链接地址?

@黄亿华 你好,想跟你请教个问题:页面内某个列表中的链接只显示20个,多余的会被分到下一页,webmagic该怎么去抓取下一页的链接,不胜感激 …

吃颗糖壮壮胆 2021-11-22 20:31:06 930 0

webmagic里的一个小问题

@黄亿华 你好,想跟你请教个问题: 在webmagic的父pom里,你定义了它的继承关系 org.sonatype.oss oss-parent 7 这个继承,有什么用吗?好像是官方的…

静谧 2021-11-22 17:47:55 960 0

为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?

为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?…

把昨日还给我 2021-11-22 15:26:25 829 0

webmagic 使用

@黄亿华 你好,想跟你请教个问题: 我用webmagic 下载 http://cctv.cntv.cn/lm/xinwenlianbo/20130201.shtml page.putField("title", page.getHtml()…

狠疯拽 2021-11-22 09:39:43 909 0

如何选择其它保存方式

@黄亿华 你好,想跟您请教个问题:最近一直在研究爬虫,在开源项目中,发现您的API这种实现方式比较合胃口(讨厌配置文件~~)。自己用了一下,感觉非…

牵你的手,一向走下去 2021-11-22 06:35:46 897 0
更多

推荐作者

苦中寻乐

文章 0 评论 0

lueluelue

文章 0 评论 0

嗼ふ静

文章 0 评论 0

王权女流氓

文章 0 评论 0

与花如笺

文章 0 评论 0

残酷

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文