WebMagic

WebMagic

文章 155 浏览 209

Webmagic使用Selenium中的HtmlUnitDriver

@黄亿华 你好,想跟你请教个问题:最近在使用webmagic的时候,想添加selenium中的htmlunitDriver,作为一个downloader。当htmlunitDriver初始化为htm…

冷默言语 2021-11-28 05:34:16 808 0

webmagic可以控制深度么?

@黄亿华 你好,想跟你请教个问题:我想问一下 webmagic可以控制深度么? …

秉烛思 2021-11-28 02:47:27 802 0

webmagic怎样下载一个图像文件呢?

@黄亿华 你好,想跟你请教个问题: 你好!这几天用你的webmagic做一个爬虫的例子,我现在想从网页上下载一个图片,该怎样从page中获取到图片的流数据…

夜司空 2021-11-28 00:52:21 881 0

神奇的Http头(X-Forwarded-For)可以解决抓取限制吗?

抓取一个网站,设置的是休眠1秒,大概抓取了100个TargetUrl,就被屏蔽了,表现就是由TargetUrl跳转到一个输入校验码页面。 其他设置不变,仅添加了一…

成熟的代价 2021-11-27 20:32:48 820 0

webmagic 使用RedisSchedule问题

@黄亿华 您好,想跟您请教个问题:我在web应用中使用webmagic,当程序使用QueueScheduler()时什么问题都没有,一切都能正常跑;换成RedisScheduler()…

反目相谮 2021-11-27 19:41:27 433 0

我在用webmagic抓取https网站时报错

@黄亿华 你好,想跟你请教个问题: 我在使用你写的webmagic时如果抓去普通http网站是可以的,但是抓取https网站就出错。 16-03-02 21:45:25,487 INFO…

冬天旳寂寞 2021-11-27 18:17:33 341 0

webmagic与curl命令的区别

使用webmagic抓取某个网站时,若没有设置User-Agent, 会返回空(仍是200)。但我在终端直接执行curl http://some.site.com 却可以正常返回内容。 但是…

背叛残局 2021-11-27 17:23:19 844 0

怎么使用hadoop结合webmagic分布式爬取数据

只执行map的任务,不执行reducer.把爬取测数据存到hbase之类的数据库。求思路~ …

谁的新欢旧爱 2021-11-27 17:19:09 867 0

生产环境抓取进程僵死原因咨询

@黄亿华 你好,想跟你请教个问题: 在线上环境发现了一个问题,让人琢磨不透,特来请教。 抓取逻辑是这样,两个消息监听器(抓取进程)分别部署在不…

眼泪淡了忧伤 2021-11-27 15:18:50 850 0

Spider 继承Runnable疑惑

@黄亿华 你好,想跟你请教个问题:webmaigc中的Spider设计的时候impliments Runnable ,为什么在使用的时候,也就是main方法中却调用的run()方法,能…

水水月牙 2021-11-27 14:25:43 848 0

webmagic怎么提取相对url,并把这些相对url加入抓取队列

@黄亿华 您好,想跟你请教个问题:就是webmagic中怎么抓取相对url List links = page.getHtml().links().regex("http://my\.oschina\.net/flashsword…

残花月 2021-11-27 09:27:02 900 0

webmagic是否支持pdf等格式的非html抽取

@黄亿华 您好,想跟您请教些问题:webmagic是否支持pdf等格式的非html抽取?它能否支持大数据的爬取?我不知道您在实际应用中抓取过多少数据,它效率…

眼眸里的那抹悲凉 2021-11-27 06:37:16 825 0

来一发正则表达式,匹配一个地址

@红薯   @Jfinal @黄亿华  跪求 HelpUrl、TargetUrl的正则表达式 @HelpUrl  http://www.amazon.cn/%E6%98%BE%E7%A4%BA%E5%99%A8/b/ref=sa_menu_offic…

流心雨 2021-11-27 05:56:58 512 0

从不同的页面中抓取内容填入到对象当中

我想做到类似python的scrapy的效果差不多,不知道实现方法。我贴出python的代码来 大家给一下意见。 def parse(self, response) data = json.loads(r…

归属感 2021-11-27 05:03:23 756 0

求助,运行官方实例出现java.lang.IllegalAccessError

在java1.7且 不使用Maven,导入 http://webmagic.io/download.html 中0.5.2的所有jar包的情况下,运行http://webmagic.io/docs/zh/posts/ch2-install…

各自安好 2021-11-27 03:16:56 777 0
更多

推荐作者

苦中寻乐

文章 0 评论 0

lueluelue

文章 0 评论 0

嗼ふ静

文章 0 评论 0

王权女流氓

文章 0 评论 0

与花如笺

文章 0 评论 0

残酷

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文