Webmagic使用Selenium中的HtmlUnitDriver
@黄亿华 你好,想跟你请教个问题:最近在使用webmagic的时候,想添加selenium中的htmlunitDriver,作为一个downloader。当htmlunitDriver初始化为htm…
神奇的Http头(X-Forwarded-For)可以解决抓取限制吗?
抓取一个网站,设置的是休眠1秒,大概抓取了100个TargetUrl,就被屏蔽了,表现就是由TargetUrl跳转到一个输入校验码页面。 其他设置不变,仅添加了一…
webmagic 使用RedisSchedule问题
@黄亿华 您好,想跟您请教个问题:我在web应用中使用webmagic,当程序使用QueueScheduler()时什么问题都没有,一切都能正常跑;换成RedisScheduler()…
我在用webmagic抓取https网站时报错
@黄亿华 你好,想跟你请教个问题: 我在使用你写的webmagic时如果抓去普通http网站是可以的,但是抓取https网站就出错。 16-03-02 21:45:25,487 INFO…
webmagic与curl命令的区别
使用webmagic抓取某个网站时,若没有设置User-Agent, 会返回空(仍是200)。但我在终端直接执行curl http://some.site.com 却可以正常返回内容。 但是…
Spider 继承Runnable疑惑
@黄亿华 你好,想跟你请教个问题:webmaigc中的Spider设计的时候impliments Runnable ,为什么在使用的时候,也就是main方法中却调用的run()方法,能…
webmagic怎么提取相对url,并把这些相对url加入抓取队列
@黄亿华 您好,想跟你请教个问题:就是webmagic中怎么抓取相对url List links = page.getHtml().links().regex("http://my\.oschina\.net/flashsword…
webmagic是否支持pdf等格式的非html抽取
@黄亿华 您好,想跟您请教些问题:webmagic是否支持pdf等格式的非html抽取?它能否支持大数据的爬取?我不知道您在实际应用中抓取过多少数据,它效率…
来一发正则表达式,匹配一个地址
@红薯 @Jfinal @黄亿华 跪求 HelpUrl、TargetUrl的正则表达式 @HelpUrl http://www.amazon.cn/%E6%98%BE%E7%A4%BA%E5%99%A8/b/ref=sa_menu_offic…
从不同的页面中抓取内容填入到对象当中
我想做到类似python的scrapy的效果差不多,不知道实现方法。我贴出python的代码来 大家给一下意见。 def parse(self, response) data = json.loads(r…
求助,运行官方实例出现java.lang.IllegalAccessError
在java1.7且 不使用Maven,导入 http://webmagic.io/download.html 中0.5.2的所有jar包的情况下,运行http://webmagic.io/docs/zh/posts/ch2-install…