第 3 页 - WebMagic - 文江博客

投稿关注

WebMagic

文章 155 浏览 213

WebMagic怎么限制请求速度？

WebMagic爬取github时报code error 429，查了下http状态码 429 Too Many Requests (太多请求)了，需要限制请求速度，请问怎么限制请求速度？…

浅沫记忆 2021-12-03 08:29:34 874 0

使用selenium获取今日头条的个人收藏页面，怎么匹配到li标签

如图所示，我去匹配这个Li的时候，点击没反应。 …

左岸枫 2021-12-03 07:54:42 844 0

请教下如何使用proxypool，读取的proxy文件应该是什么格式

请问我应该以什么格式设置代理文件呢？谢谢…

多情癖 2021-12-03 07:48:16 849 0

webmagic网络爬虫将爬取到的内容保存到本地文件夹，怎么把本地文件夹路径存到数据库中

使用webmagic爬取数据，将网页标题，作者，评论数，点赞数等存储到数据库中，将网页具体内容存储到本地文件夹，通过 Spider.create(new StoreXXPage(…

爱的故事 2021-12-03 00:32:41 682 0

webmagic java爬虫使用selenium模拟谷歌浏览器，获取了翻页的每页的网址链接传到process，运行时为什么还会打开每页的网址？

如图，已经获取到想爬取的网址信息，在process那边也获取的到。但是addTargetRequests这些网址，就会又打开了，怎么能不打开这些单个的网址了？ …

奢华的一滴泪 2021-12-02 21:00:01 736 0

webmagic中的xpath问题

@黄亿华你好，想跟你请教个问题：在使用xpath类似 //div[@class='biaoge']/table/tr[1] 这种时会出现 java.lang.NoSuchMethodError: org.jsoup.s…

酷到爆炸 2021-12-02 20:33:19 815 0

webmagic如何处理指定网页的所有评论页

当获取的网页内容含有评论时，获取的第二页评论里，又有三个跳转页，这种怎么处理比较好，每跳转一次，链接地址就在当前地址上叠加了，要怎么才能固…

爱的故事 2021-12-02 20:05:49 826 0

webmagic使用官方例子GithubRepoPageProcessor报错

代码是用http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/pageprocessor.html这个链接的里面的代码。依赖包 us.codecraft webmagic-core…

凯凯我们等你回来 2021-12-02 14:09:08 743 0

spring注入为null

最近在学习爬虫，找到了webmagic和crawler4j这两个开源项目，但是在webmagic的pipeline里面和crawler4j的visit里面使用了一个用@autowired注入的一个…

三月梨花 2021-12-02 13:33:25 913 0

wemagic java爬虫获取翻页的总页码问题

如图所示，怎么只获取最后一个？ …

明月松间行 2021-12-02 12:36:00 961 0

WebMagic 断点续爬有没有什么更好的方案啊？

@黄亿华你好，想跟你请教个问题：WebMagic 断点续爬有没有什么更好的方案啊？我目前采用的方式就是：对所有已经采集的地址进行标识，判断是否采集…

像你 2021-12-02 12:23:23 901 0

设置了user agent，怎么返回的html还是web版本的？

@黄亿华你好，想跟你请教个问题：想爬一下http://www.gov.cn/zhengce/zc_bm.htm云适配版本的网页，设置了user agent，但是爬回来的html还是web版本…

梅窗月明清似水 2021-12-02 09:41:38 896 0

关于webmagic的代理ip池

@黄亿华关于webmagic代理池的使用，文档里里的DEMO是错误的，可否给个正确的方式！…

晚风撩人 2021-12-02 08:45:59 803 0

JMX如何远程看MBean？

如题，我是按如下图设置的jmx，但是远程还是无法访问 …

不乱于心 2021-12-02 04:05:37 684 0

webmagic request设置POST方法报NullPointerException!

public class MaxSpider implements PageProcessor { private static Site site=Site.me(); static{ site.setCharset("UTF-8"); site.addHeader("User…

坚持沉默 2021-12-02 03:07:12 745 0

共 11 页
上一页
1
2
3
4
5
下一页

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

WebMagic

WebMagic怎么限制请求速度？

使用selenium获取今日头条的个人收藏页面，怎么匹配到li标签

请教下如何使用proxypool，读取的proxy文件应该是什么格式

webmagic网络爬虫将爬取到的内容保存到本地文件夹，怎么把本地文件夹路径存到数据库中

webmagic java爬虫使用selenium模拟谷歌浏览器，获取了翻页的每页的网址链接传到process，运行时为什么还会打开每页的网址？

webmagic中的xpath问题

webmagic如何处理指定网页的所有评论页

webmagic使用官方例子GithubRepoPageProcessor报错

spring注入为null

wemagic java爬虫获取翻页的总页码问题

WebMagic 断点续爬有没有什么更好的方案啊？

设置了user agent，怎么返回的html还是web版本的？

关于webmagic的代理ip池

JMX如何远程看MBean？

webmagic request设置POST方法报NullPointerException!

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接