Python - BeautifulSoup - HTML 解析

发布于 2024-10-26 02:51:42 字数 1446 浏览 0 评论 0原文

这是站点代码的片段

<td class='vcard' id='results100212571'>   
 <h2 class="custom_seeMore">
  <a class="fn openPreview" href="link.html">Hotel Name<span class="seeMore">See More...</span></a>
 </h2> 
 <div class='clearer'></div> 
 <div class='adr'>
  <span class='postal-code'>00000</span> 
  <span class='locality'>City</span> 
  <span class='street-address'>Address</span>
 </div>
 <p class="tel">Phone number</p>

,我尝试解析它,

for element in BeautifulSoup(page).findAll('td'):
    if element.find('a', {'class' : 'fn openPreview'}):
        print element.find('a', {'class' : 'fn openPreview'}).string
    if element.find('span', {'class' : 'postal-code'}):
        print element.find('span', {'class' : 'postal-code'}).string
    if element.find('span', {'class' : 'locality'}):
        print element.find('span', {'class' : 'locality'}).string
    if element.find('span', {'class' : 'street-address'}):
        print element.find('span', {'class' : 'street-address'}).string
    if element.find('p', {'class' : 'tel'}):
        print element.find('p', {'class' : 'tel'}).string

我知道这是非常业余的代码,但它几乎可以工作。即它适用于除“fn openPreview”之外的所有类,所有其他类都绘制其内容,但

print element.find('a', {'class' : 'fn openPreview'}).string 

打印 None

请帮助我,如何解析它。

Here is fragment of the site code

<td class='vcard' id='results100212571'>   
 <h2 class="custom_seeMore">
  <a class="fn openPreview" href="link.html">Hotel Name<span class="seeMore">See More...</span></a>
 </h2> 
 <div class='clearer'></div> 
 <div class='adr'>
  <span class='postal-code'>00000</span> 
  <span class='locality'>City</span> 
  <span class='street-address'>Address</span>
 </div>
 <p class="tel">Phone number</p>

and I try to parse it

for element in BeautifulSoup(page).findAll('td'):
    if element.find('a', {'class' : 'fn openPreview'}):
        print element.find('a', {'class' : 'fn openPreview'}).string
    if element.find('span', {'class' : 'postal-code'}):
        print element.find('span', {'class' : 'postal-code'}).string
    if element.find('span', {'class' : 'locality'}):
        print element.find('span', {'class' : 'locality'}).string
    if element.find('span', {'class' : 'street-address'}):
        print element.find('span', {'class' : 'street-address'}).string
    if element.find('p', {'class' : 'tel'}):
        print element.find('p', {'class' : 'tel'}).string

I know it's very amateur code, but it almost works. ie it works for all classes except 'fn openPreview', all other classes draw their content, but

print element.find('a', {'class' : 'fn openPreview'}).string 

print None

Please help me, how to parse it.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

几味少女 2024-11-02 02:51:42

根据 BeautifulSoup 文档element.string 如果 element 有多个子元素,则为 None

在您的情况下,

print element.find('a', {'class' : 'fn openPreview'}).contents[0].string

将打印“酒店名称”。

According to the BeautifulSoup documentation, element.string will be None if element has multiple children.

In your case,

print element.find('a', {'class' : 'fn openPreview'}).contents[0].string

will print "Hotel Name".

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文