模拟提交 form post提交中文问题。
今天使用webmagic模拟post请求,但是中文参数被编码后不正确。 Content-Type=application/x-www-form-urlencoded charset=UTF-8 后来发现在重写selec…
webmagic 模拟post提交之后,返回200 但是返回数据不对
我在用webmagic模拟post请求查询页面时,虽然返回了200的statusCode,但是返回的页面确实整个页面,并不是post之后的页面,请问是什么情况啊? 有没…
Webmagic抓取页面中列表数据
@黄亿华 你好,想跟你请教个问题: http://www.xinnong.com/hangqing/market/20595/  我在测试抓取时,不知道怎么逐行抓取table中的信息。 日期…
webmagic有解析<table>的方法么,返回 table中所有tr和td 的值??
@黄亿华 你好,想跟你请教个问题:webmagic有解析<table>的方法么,返回 table中所有tr和td 的值?? xpath怎么获取<td>的文本呢?有的td里…
myeclipse安装webmagic引入经典案例提示报错
Multiple markers at this line - The method getSite() of type GithubRepoPageProcessor must override a superclass  method - implements us.…
webmagic获取页面链接的问题
如何获取某个地址下 html结尾的文件,如http://a.abc.com/info 这个目录下有很多html结尾的链接,用下面的方式怎么取不到? List<String> links =…
page.getHtml().regex()正则问题
@黄亿华 你好,想跟你请教个问题: 我使用的零宽断言正则:(?<=xxx:").*?js,如匹配:xxx:"https://abc.com/a.js" 在RegexSelector 31处,对regexS…
webmagic 如何实现我的这个需求
@黄亿华 我有一个文本,每行一个url,如何用webmagic多线程抓取. 并且每个url抓到的结果仅仅是一个String 的键值对,比如这样: =========…