WebMagic

投稿关注

文章 155 浏览 213

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

使用wemgaic框架进行爬取页面数据时,利用FileCacheQueueScheduler进行的增量爬取，但是在爬取结束后（需要爬取的数据，都已经记录在urls.txt和cursor.…

浅蓝的眸勾画不出的柔情 2022-09-11 18:56:11 37 0

使用webmagic爬取标题

我现在有个项目需要用到webmagic进行爬取标题，但是这个网站的标题有两种格式的样式因为第一次写爬虫，也是第一次用这个框架，所以不是很懂怎么去写…

千仐 2022-09-11 17:28:17 31 0

爬虫验图片证码识别的问题？

网络爬虫关于验证码识别目前有哪些方案？除了第三方的接口，有相关的jar包可以调用吗？…

绅士风度i 2022-09-05 04:18:28 37 0

webmagic的xpath中last()函数无法使用？

使用爬虫的时候，执行以下语句： page.getHtml().xpath("//div[@id='pager']/a[last()]").links().all() 报错如下： org.jsoup.select.Selector$Sele…

-黛色若梦 2022-09-05 03:58:01 47 0

爬虫爬目标网站出现512错误怎么解决?

1.问题昨天爬好好的,然后开了五个线程果断被封IP, 今天继续爬,没有封IP,但是爬不了,直接报错512错误 2.错误信息 [WARN][2016-05-13 11:40:20,977][u…

绅士风度i 2022-09-02 15:28:12 36 0

你好我想请问一下用Webmagic 如何爬取”<a href="javascript: void (0);" onclick="loadPage(this)" categoryid="0"></a> 里面数据？

@黄亿华你好，想跟你请教个问题：…

高跟鞋的旋律 2022-03-04 18:42:12 738 0

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

@黄亿华你好，想跟你请教个问题：我在抓取网页的时候利用了FileCacheQueueScheduler，运行后发现网页已经抓取完毕，jconsole中也表示线程状态为stop…

因为看清所以看轻 2022-01-06 17:25:05 961 0

如何停止webmagic的链接管理的去重

我在抓取的软件是这样的，url只有一个，但是每次通过post请求设置不同的参数值来获取不同的内容，但是因为Scheduler的去重使得post请求只进行了一次…

深巷少女 2022-01-05 13:35:53 801 0

webmagic怎么执行翻页

我在爬取韩国某电商网时，准备进行翻页获取下一页商品的全部url地址。但是下一页按钮为JavaScript:void(0)我不知道该如何点击。求助各位大佬…

把回忆走一遍 2022-01-03 16:58:05 669 0

黄老师，请问webmagic这个项目您还维护吗？后续会不会出新版本？

@黄亿华你好，想跟你请教个问题：请问webmagic这个项目您还维护吗？后续会不会出新版本？…

温柔少女心 2022-01-03 07:18:35 959 0

webmagic数抓取问题

@黄亿华你好，想跟你请教个问题：在使用webmagic数据抓取过程中，发现数据有漏抓的现像。列表页600条，但在实际抓取的过程中只有抓到200多条。代码…

吃颗糖壮壮胆 2022-01-01 13:25:28 733 0

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息？获取到时间了，但是链接怎么判断了再加进去？初始网址如图，想从具体网页中…

拥有 2021-12-09 07:59:32 883 0

使用Xpath提取网页元素

@黄亿华你好，想跟你请教个问题：使用您的webmagic，在用Xpath选取页面元素时，选取不到。描述：在CSS网页布局的网页中，使用是正常的，但是遇到…

滥情空心 2021-12-09 04:56:37 794 0

关于webmagic的xpath选取多个节点的问题

@黄亿华你好，想跟你请教个问题：在这个网站：http://www.huxiu.com/article/130810/1.html?f=index_top1 中，就是例子中的虎嗅网抓取，我根据现在…

心舞飞扬 2021-12-08 21:20:19 959 0

Java webMagic 如何爬取知乎回答？

用webmagic抓取知乎某个问题下的所有回答时候，每次只能获取前两条回答。查了各种博客，试了各种方法，总是只返回2条回答，或者直接401。 o.a.h.impl…

如日中天 2021-12-08 13:27:49 873 0

共 11 页
1
2
3
4
5
下一页

佚名

文章 0 评论 0

关注

今天

文章 0 评论 0

关注

゛时过境迁

文章 0 评论 0

关注

达拉崩吧

文章 0 评论 0

关注

呆萌少年

文章 0 评论 0

关注

孤者何惧

文章 0 评论 0

友情链接

文江博客

WebMagic

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

使用webmagic爬取标题

爬虫验图片证码识别的问题？

webmagic的xpath中last()函数无法使用？

爬虫爬目标网站出现512错误怎么解决?

你好我想请问一下用Webmagic 如何爬取”<a href="javascript: void (0);" onclick="loadPage(this)" categoryid="0"></a> 里面数据？

利用FileCacheQueueScheduler后抓取结束进程却无法自动停止

如何停止webmagic的链接管理的去重

webmagic怎么执行翻页

黄老师，请问webmagic这个项目您还维护吗？后续会不会出新版本？

webmagic数抓取问题

webmagic Java 爬虫怎么能够在第二次之后爬取发布时间最新的链接的信息

使用Xpath提取网页元素

关于webmagic的xpath选取多个节点的问题

Java webMagic 如何爬取知乎回答？

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接