第 2 页 - WebMagic - 文江博客

投稿关注

WebMagic

文章 155 浏览 213

webmagic java爬虫使用selenium模拟浏览器登录打开页面，传值到page在process赋值到文件在循环里失效

直接输出内容，可以全部输出，放入page.putField里只能获取到最后一个。 page里放了所有需要的内容。在process里用数组分开了。 …

策马西风 2021-12-08 05:46:34 1006 0

webmagic java使用selenium模拟打开翻页网页时，是获取什么内容，直接把url在string拼接打不开

模拟打开了翻页，不知道要获取什么，把url拼接在一个html形式里，但process里没有内容。在SeleniumDownloader基础上进行修改PAGE部分。 …

陌上芳菲 2021-12-08 00:43:58 816 0

webmagic java爬虫得到的文件怎么修改文件的展现格式

通过webmagic获取网页内容存储到本地文件，怎么修改展现的形式？…

把回忆走一遍 2021-12-07 22:16:20 678 0

使用selenium+java模拟登陆今日头条时需要手机验证码登陆，第二次怎么免输入信息登陆？

在使用selenium爬取今日头条时，想登陆之后爬取个人收藏内容。第一次是通过手机验证码登进去，需要多次登陆，第二次如何可以不登陆，直接就爬取信息…

悸初 2021-12-07 05:47:53 923 0

webmagic的example运行失败

我在eclipse中建立工程后将webmagic/lib中的除webmagic-core和webmagic-extension外的jar包导入工程,又将webmagic/webmagic-core/src/main/us和webma…

可是我不能没有你 2021-12-07 02:31:03 869 0

用eclipse跑webmagic抓取网页例子无任何输出？

eclipse跑的就是如下的例子，但是控制台没输出，这个是咋回事了，无论运行还是debug模式？新手不太懂。控制台输出： log4j:WARN No appenders could …

明月松间行 2021-12-06 21:26:44 985 0

java webmagic爬虫在原网页获取的网页中又出现需要翻页，怎么获取翻页的内容？

从初始网页获取到的网页内容中，又包含翻页内容，怎么获取这个地址内容？比如每个网页的评论内容，是嵌套一个爬虫？…

柳若烟 2021-12-05 21:49:28 715 0

webmagic java selenium加载需要翻页的网页，第一页的20页打开了，这些内容怎么获取？

将第一页网页加进去，点击可以打开，怎么获取新网页内容，一直获取不到，都是初始网站的 …

緦唸λ蓇 2021-12-05 12:50:10 778 0

网络爬虫，java语言写的，爬不到正确的网页源码，百思不得其解，不知问题症结在哪里？求助爬虫前辈们

@黄亿华你好，想跟你请教个问题：有幸发现了这个网站，拜读了大神们关于网络爬虫的博客，受益良多。作为爬虫方面的小白，眼下我也正在开展爬虫的…

无人问我粥可暖 2021-12-05 04:40:42 815 0

webmagic selenium+JAVA 如何自动判断，页面加载完再执行之后的代码

webmagic selenium+JAVA 如何自动判断，页面加载完再执行之后的代码…

把回忆走一遍 2021-12-04 21:27:57 948 0

webmagic 可以在PageProcessor 的process方法中控制停止？

@黄亿华你好，想跟你请教个问题：Spider 是不是不会在 page.getTargetRequests()为空的时候自动停下来的？？如果不会停的话，能不能在 PageProcessor…

坚持沉默 2021-12-04 18:32:29 865 0

停止爬虫失败

我最近在学习WebMagic框架，但是被一个功能实现一直困扰。我想实现前端控制爬虫停止，就是说当我前端点击停止按钮时，调用后台的爬虫停止方法。但是We…

情痴 2021-12-04 10:04:22 907 0

根据地图上的点位点击并抓取其显示的数据，有没有好的方案

首先是有一个地图，然后点击地图上的点位，抓取弹出蒙版的数据，求解…

南冥有猫 2021-12-04 04:24:40 919 0

有关Selenium做爬虫方式的资源消耗的问题

@黄亿华你好，想跟你请教个问题：我们采用了selenium的webdriver作为引擎，进行网页数据的抓取、以及后续的解析、数据持久化。webdriver采用chrome…

筱果果 2021-12-03 13:59:24 824 0

webmagic java爬虫获取网页中的超链接时，超链接的地址是不完整的，怎么能获得超链接的完整地址？

如图所示，下获取初始页面的这些超链接中的内容，获取的链接都是 ?p=1 这种，隐藏的地址怎么加上？…

吃颗糖壮壮胆 2021-12-03 12:05:43 726 0

共 11 页
上一页
1
2
3
4
5
下一页

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

WebMagic

webmagic java爬虫使用selenium模拟浏览器登录打开页面，传值到page在process赋值到文件在循环里失效

webmagic java使用selenium模拟打开翻页网页时，是获取什么内容，直接把url在string拼接打不开

webmagic java爬虫得到的文件怎么修改文件的展现格式

使用selenium+java模拟登陆今日头条时需要手机验证码登陆，第二次怎么免输入信息登陆？

webmagic的example运行失败

用eclipse跑webmagic抓取网页例子无任何输出？

java webmagic爬虫在原网页获取的网页中又出现需要翻页，怎么获取翻页的内容？

webmagic java selenium加载需要翻页的网页，第一页的20页打开了，这些内容怎么获取？

网络爬虫，java语言写的，爬不到正确的网页源码，百思不得其解，不知问题症结在哪里？求助爬虫前辈们

webmagic selenium+JAVA 如何自动判断，页面加载完再执行之后的代码

webmagic 可以在PageProcessor 的process方法中控制停止？

停止爬虫失败

根据地图上的点位点击并抓取其显示的数据，有没有好的方案

有关Selenium做爬虫方式的资源消耗的问题

webmagic java爬虫获取网页中的超链接时，超链接的地址是不完整的，怎么能获得超链接的完整地址？

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接