@黄亿华 你好,想跟你请教个问题:webmagic是怎么处理相对路径的?貌似只能抓取绝对路径?
相对路径替换错了。
1.点评有防抓取策略,和相对/绝对URL没关系,具体的无法透露。 2.推荐使用开放API获取数据,构建你的应用,http://developer.dianping.com/。
@黄亿华 非常感谢@黄亿华
我要抓取www.dianping.com里的链接,但是里面的连接都是以 <li> <a href="/search/category/16/10/g103" 这种形式,我用regex(".*search.*"')抓取不到。
相对路径会被替换为绝对路径,因为单独的相对路径,离开当前页面就无效了,是无法抓取的!请问你是什么场景一定要用相对路径?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
暂无简介
文章 0 评论 0
接受
发布评论
评论(5)
相对路径替换错了。
1.点评有防抓取策略,和相对/绝对URL没关系,具体的无法透露。 2.推荐使用开放API获取数据,构建你的应用,http://developer.dianping.com/。
@黄亿华 非常感谢
@黄亿华
我要抓取www.dianping.com里的链接,但是里面的连接都是以 <li> <a href="/search/category/16/10/g103" 这种形式,我用regex(".*search.*"')抓取不到。
相对路径会被替换为绝对路径,因为单独的相对路径,离开当前页面就无效了,是无法抓取的!请问你是什么场景一定要用相对路径?