Python 解析:lxml 仅获取标签文本的一部分
我正在使用 Python 和 HTML 进行工作,如下所示。我正在使用 lxml 进行解析,但同样可以愉快地使用 pyquery:
<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>
无论我使用什么库,提取“名称”和“地址”都非常容易,但是如何获取文本的其余部分 - 即“戴夫·戴维斯”?
I'm working in Python with HTML that looks like this. I'm parsing with lxml, but could equally happily use pyquery:
<p><span class="Title">Name</span>Dave Davies</p>
<p><span class="Title">Address</span>123 Greyfriars Road, London</p>
Pulling out 'Name' and 'Address' is dead easy, whatever library I use, but how do I get the remainder of the text - i.e. 'Dave Davies'?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
另一种方法——使用 xpath:
Another method -- using xpath:
每个元素可以有一个 文本和一个 tail 属性(在链接中,搜索单词“tail”):
Each Element can have a text and a tail attribute (in the link, search for the word "tail"):
看看BeautifulSoup。我刚刚开始使用它,所以我不是专家。我的头顶上浮现出:
Have a look at BeautifulSoup. I've just started using it, so I'm no expert. Off the top of my head: