使用 BeautifulSoup 查找包含特定文本的 HTML 标签
我正在尝试获取 HTML 文档中包含以下文本模式的元素: #\S{11}
<h2> this is cool #12345678901 </h2>
因此,前一个将通过使用进行匹配:
soup('h2',text=re.compile(r' #\S{11}'))
结果将类似于:
[u'blahblah #223409823523', u'thisisinteresting #293845023984']
我能够获取所有匹配的文本(参见上面的行)。 但我希望文本的父元素匹配,因此我可以将其用作遍历文档树的起点。 在这种情况下,我希望返回所有 h2 元素,而不是文本匹配。
有想法吗?
I'm trying to get the elements in an HTML doc that contain the following pattern of text: #\S{11}
<h2> this is cool #12345678901 </h2>
So, the previous would match by using:
soup('h2',text=re.compile(r' #\S{11}'))
And the results would be something like:
[u'blahblah #223409823523', u'thisisinteresting #293845023984']
I'm able to get all the text that matches (see line above). But I want the parent element of the text to match, so I can use that as a starting point for traversing the document tree. In this case, I'd want all the h2 elements to return, not the text matches.
Ideas?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
当使用
text=
作为条件时,BeautifulSoup 搜索操作会提供 [一系列]BeautifulSoup.NavigableString
对象,这与其他情况下的BeautifulSoup.Tag
不同案例。 检查对象的__dict__
以查看可供您使用的属性。 在这些属性中,parent
比previous
更受青睐,因为 BS4 中的更改。BeautifulSoup search operations deliver [a list of]
BeautifulSoup.NavigableString
objects whentext=
is used as a criteria as opposed toBeautifulSoup.Tag
in other cases. Check the object's__dict__
to see the attributes made available to you. Of these attributes,parent
is favored overprevious
because of changes in BS4.印刷:
Prints:
对于 bs4 (Beautiful Soup 4),OP 的尝试完全按照预期工作:
返回
[
; 这很酷#12345678901
]
。With bs4 (Beautiful Soup 4), the OP's attempt works exactly like expected:
returns
[<h2> this is cool #12345678901 </h2>]
.