使用webmagic爬取标题

发布于 2022-09-11 17:28:17 字数 643 浏览 26 评论 0

我现在有个项目需要用到webmagic进行爬取标题,但是这个网站的标题有两种格式的样式图片描述图片描述因为第一次写爬虫,也是第一次用这个框架,所以不是很懂怎么去写他的xpath

如果只是设置xpath("//div[@class="title"]/text()"),只能得到第二中的标题文本
第一种样式的有的标题甚至有3个<span>标签,所以我只能一个个写出来在拼接,但是这种明显不使用,
还试过使用css("div.title")会得到整个<div>标签的内容
图片描述,但是还要在外面重新获取文本在拼接,很麻烦,而且还会得到首页大标题,
图片描述这不是我需要的

不知道有没有办法,在设置一个xpath或者使用css和正则表达式来完成爬取全部的标题
各位大佬帮帮忙,因为第一次接触爬虫有很多不懂,感谢感谢

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

胡大本事 2022-09-18 17:28:17

只需要将xpath("//div[@class="title"]/text()")改为xpath("//div[@class="title"]/allText()")就好了

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文