webmagic 使用
@黄亿华 你好,想跟你请教个问题:
我用webmagic 下载 http://cctv.cntv.cn/lm/xinwenlianbo/20130201.shtml
page.putField("title", page.getHtml().xpath("//div[@id='title_01']"));
最后title的内容为空,我看了下载下来的网页,发现div[@id='title_01']这个标签里面的内容就是空的,不知道为什么?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
嗯,我看后面确实有js代码,里面的确有我要的数据,看来只能用正则抽取了,非常感谢
这个不是webmagic的问题,是
div[@id='title_01']内的内容是js动态渲染的,我建议你直接使用正则抽取后面的js数据。