使用webmagic爬取标题
我现在有个项目需要用到webmagic进行爬取标题,但是这个网站的标题有两种格式的样式因为第一次写爬虫,也是第一次用这个框架,所以不是很懂怎么去写他的xpath
如果只是设置xpath("//div[@class="title"]/text()"),只能得到第二中的标题文本
第一种样式的有的标题甚至有3个<span>标签,所以我只能一个个写出来在拼接,但是这种明显不使用,
还试过使用css("div.title")会得到整个<div>标签的内容
,但是还要在外面重新获取文本在拼接,很麻烦,而且还会得到首页大标题,
这不是我需要的
不知道有没有办法,在设置一个xpath或者使用css和正则表达式来完成爬取全部的标题
各位大佬帮帮忙,因为第一次接触爬虫有很多不懂,感谢感谢
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
只需要将
xpath("//div[@class="title"]/text()")
改为xpath("//div[@class="title"]/allText()")
就好了