我如何从此HTML中提取HREF和标题
我的BS4.Element.ResultSet具有这种格式:
[<h3 class="foo1">
<a href="someLink" title="someTitle">SomeTitle</a>
</h3>,
<h3 class="foo1">
<a href="OtherLink" title="OtherTitle">OtherTitle</a>
</h3>]
而且我希望能够提取并保存在元组中 [(title,href),(title2,href2)]但是我似乎不能这样做
,但最接近的尝试
link = soup.find('h3',class_='foo1').find('a').get('title')
print(link)
只是返回2个或更多的第一个元素 我如何成功提取每个HREF和标题
my bs4.element.ResultSet has this format:
[<h3 class="foo1">
<a href="someLink" title="someTitle">SomeTitle</a>
</h3>,
<h3 class="foo1">
<a href="OtherLink" title="OtherTitle">OtherTitle</a>
</h3>]
and i want to be able to extract and save in tuple
[(title,href),(title2, href2)] but i cant seem to do so
my closest attempt was
link = soup.find('h3',class_='foo1').find('a').get('title')
print(link)
but that only returns the first element of the 2 or more
how can i successfully extract each href and title
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用
css选择器
选择您的元素更具体的元素,然后在Resultset
上迭代以获取每个元素的属性,为tum>元组的列表
:示例
输出
Select your elements more specific e.g. with
css selectors
and iterate over yourResultSet
to get the attributes of each of them as list oftuples
:Example
Output
代码:
说明:
选择具有
HREF
和标题
的所有a
元素,它们是H3 带有
foo1
类的元素。对于这些
a
元素中的每个元素,请用下面的内容替换它们。制作包含链接的
HREF
和标题
的元组。Code:
Explanation:
Selects all the
a
elements that have ahref
and atitle
that are a direct child of anh3
element with thefoo1
class.For each of those
a
elements, replace each of them with what follows.Make a tuple containing the link's
href
andtitle
.