对抓取失败的url保存起来,延迟抓取
使用spider 抓取页面时,有时候,页面访问会失败(或运行异常),但这个流程是一个整体,必须把抓取失败的页面保存在一个delayQueueSchedualer 里面…
抓取某个网站 本地正常 服务器上却很快便503
发现了这么一个问题,抓取一个网站,在本地测试时,一切正常,但部署到服务器上,大概20来秒便都是503错误了,curl 某个链接 有这样的输出:  &l…
div[contains(@class, 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢
@黄亿华 你好,想跟你请教个问题:div[contains(@class , 'iphone-screen-shots')] 这种语法不支持,要用什么来代替呢 …
webmagic怎样识别网页编码
@黄亿华 你好,想跟你请教个问题: webmagic中,HttpClientDownloader里 if (charset == null) { String value =httpResponse.getEntity().getContent…
webmagic spider.run() ;后怎么终止
@黄亿华 ,你好!     Spider.create(new DemoPageProcessor()).run() //我只想让他运行几秒中,怎么终止 …
webmagic 如何整合mongodb
webmagic 如何整合mongodb? 使用的框架是 morphia + mvc 网上查询了 网上的一些题目 和 自己本地尝试,仍不成功。 望大神可以指点指点~ 本人参考过 …
表格元素抓取疑问?为什么需要多余的tbody
如下的表格: <table itemprop="ingredients">     <tr>         <td class="name has-border">     &…
webmagic抓取离散形式的很多网页
@黄亿华 你好,想跟你请教个问题: 我用webmagic抓取股票数据,类似 http://finance.sina.com.cn/realstock/company/sz000622/nc.shtml 每一个地址中…
webmagic里的一个小问题
@黄亿华 你好,想跟你请教个问题: 在webmagic的父pom里,你定义了它的继承关系 <parent> <groupId>org.sonatype.oss </groupId> <art…
为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?
为什么page.getHtml().xpath返回的是Selectable而不是节点列表?想获取节点怎么办啊?…
webmagic 使用
@黄亿华 你好,想跟你请教个问题: 我用webmagic 下载 http://cctv.cntv.cn/lm/xinwenlianbo/20130201.shtml page.putField("title", page.getHtml()…