webmagic表格爬行问题
有一个如下的TABEL,要获得每一行TR的TD中的内容: .... abc ...... 如果用XPATH的话,我这样的话,只能取到 ,但我期望拿到的是中所有的标签的集合呀…
关于Mybaits持久化问题
@黄亿华 你好,想跟你请教个问题: 首先上代码: public class SaveSqlPipeline implements Pipeline { public SaveSqlPipeline(Date date, Empl…
webmagic stop
@黄亿华 你好,想跟你请教个问题: web项目中使用了webmagic,调用spider.runAsync();开始执行爬虫,正常执行; 调用spider.stop();方法时爬虫并没有停…
DefaultHttpClient和DecompressingHttpClient的区别
在抓取bilibili弹幕文件的时候,例如 http://comment.bilibili.com/11243252.xml。 用DecompressingHttpClient可以获取到正确的内容,但是用DefaultH…
关于软件设计的问题,多线程的PageProcessor和多线程的Pipeline的设计
请教一下,垂直爬虫在很多时候会遇到反爬虫的问题,如果限制了时间段内访问的次数,多线程的Downloader并没有多大用处。反而下载下来的页面数据多线程…
webmagic开源代码编译错误
@黄亿华 你好,想跟你请教个问题: 开源中国上下载了webmagic,使用jdk1.8+eclipse Mars.2 Release (4.5.2)自带的maven 出现以下错误 Description …
webmagic运行提示错误
@黄亿华 你好,想跟你请教个问题:您好!我在运行0.5.0后版本源码时,总是出现此错误: Exception in thread "pool-1-thread-1" java.lang.NoSuchMet…