文档页面效果是怎么做的啊?
Yihua Huang,您好,我在图书馆工作,请问http://webmagic.io/docs/zh/ 这个页面读书的效果是用什么做的啊?非常适合电子书阅读。。。 非常感谢! …
我从页面获取到json数据解析后发现带的实际参数和我得到的不一样?具体情况如下
红色字体中分别是页面的实际传值和我得到的值、?为什么会不一样呢? 页面json "items":" <url><![CDATA[/websearch/art.jsp?sg=ZXE4GXRRej7mK…
关于webmagic下载动态文件(web后台生成的excel)的问题/或者说是如何提取到webmagic的cookie
页面上可以获取到url,直接打开urlconnection的inputstream,avliable()返回值是0.因为后台需要时间生成excel. 但是webmagic可以很好的下载出来,只是在…
webmagic如何采集大页面数据呢
@黄亿华 你好,想跟你请教个问题: 想采集这个页面的数据 http://mrrebates.com/merchants/all_merchants.asp 但是页面特别大,每次run以后,只加载…
webmagic如何实现一个spider对多个网站的爬取?
@黄亿华 黄大你好,想跟你请教个问题: 简单介绍一下背景,我最近在做一个垂直爬虫的项目,有三个同类型的目标网站需要爬取,有用的网页内容解析后需…
java网络爬虫使用webmagic框架怎样获取网页链接
java网络爬虫使用webmagic框架怎样获取网页链接 1位置????中的正则表达式应该怎样写才能获取任意网站下一层的链接地址 或者2位置的式子怎么写才…
抓取https 网页异常:javax.net.ssl.SSLHandshakeException
@黄亿华 你好,想跟你请教个问题:抓取https页面提示 安全证书无效 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorExc…
pipLine 中的 process 遇到一个空指针异常
@黄亿华 你好,想跟你请教个问题: @RestController @RequestMapping("/magic") public class WebMagicController implements Pipeline{ @Autowired …
WebMagic 爬虫怕您github粉丝的名字
@黄亿华 你好,想跟你请教个问题:我在用Webmagic 爬虫在爬你的粉丝的名字出现了一个问题。就是我只能爬到一个粉丝的名字,然后就结束了。以下是我的…
同一页面 有的数据可以抓取到 有的不行
@黄亿华 你好,想跟你请教个问题: title的数据是有的,但是resource一直为null,我猜是路径的问题,但是我的路径又是没问题的 求指教 public class …
关于登录后的启动爬虫时保持cookie的问题
@黄亿华 你好,想跟你请教个问题:您好,我在用Httpclient模拟登录以后用jobhunter的例子爬取登录后网页的时候爬取的却是登录界面的内容,怀疑是没有…
FileCacheQueueScheduler问题
@黄亿华 您好,想跟你请教个问题:用protected Scheduler scheduler = new FileCacheQueueScheduler(),它提示我构造函数未定义,这是为啥?而且如果…