python爬虫如何提取br标签

发布于 2022-09-05 09:39:52 字数 820 浏览 43 评论 0

python爬虫怎么提取br标签上面的内容呢？也就是提取“行业中位数，支付宝”这部分内容，由于本人只学了一点html的皮毛，还没有遇到过这种br半标签的，不知道该怎么做了，我已经试了直接用copy标签的xpath，不论定位到哪里都不行。感谢回复！

<div style="position: absolute; display: none; border-style: solid; white-space: nowrap; z-index: 9999999; transition: left 0.4s cubic-bezier(0.23, 1, 0.32, 1), top 0.4s cubic-bezier(0.23, 1, 0.32, 1); background-color: rgba(50, 50, 50, 0.7); border-width: 0px; border-color: rgb(51, 51, 51); border-radius: 4px; color: rgb(255, 255, 255); font-style: normal; font-variant: normal; font-weight: normal; font-stretch: normal; font-size: 14px; font-family: &quot;Microsoft YaHei&quot;; line-height: 21px; padding: 5px; left: 620.518px; top: 173.333px;">
    20170712
    <br>
    行业中位数：35,326
    <br>
    支付宝：4
    <br>
</div>

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

醉南桥 2022-09-12 09:39:52

from pyquery import PyQuery as Q

html = '''
<div style="position: absolute; display: none; border-style: solid; white-space: nowrap; z-index: 9999999; transition: left 0.4s cubic-bezier(0.23, 1, 0.32, 1), top 0.4s cubic-bezier(0.23, 1, 0.32, 1); background-color: rgba(50, 50, 50, 0.7); border-width: 0px; border-color: rgb(51, 51, 51); border-radius: 4px; color: rgb(255, 255, 255); font-style: normal; font-variant: normal; font-weight: normal; font-stretch: normal; font-size: 14px; font-family: "Microsoft YaHei"; line-height: 21px; padding: 5px; left: 620.518px; top: 173.333px;">
    20170712
    <br>
    行业中位数：35,326
    <br>
    支付宝：4
    <br>
</div>
'''
print Q(html).text()

回复收藏 0

梦里泪两行 2022-09-12 09:39:52

使用BeautifulSoup或者Lxml这样的库，可以方便地定位到你需要的Div并抽取文本，然后简单处理就可以了。

Lxml版：

import lxml.html

raw_html = '网页内容'
tree = lxml.html.fromstring(raw_html)
div_obj = tree.cssselect('选择器')[0]
div_text = div_obj.text_content

这样就拿到了div里面文本的内容，自己手动过滤即可。

fin_text = div_text.split('<br>')

这样就把内容切割成了一个数组。当然需要先去除换行符。

回复收藏 0

鲸落 2022-09-12 09:39:52

回复收藏 0

~没有更多了~

关于作者

半步萧音过轻尘

暂无简介

文章

27 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

python爬虫如何提取br标签

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

python爬虫如何提取br标签

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。