python爬虫获取不到标签内容

发布于 2022-09-05 08:46:18 字数 1160 浏览 32 评论 0

链接如下:
http://aaxxy.com/vod-detail-i...
使用requests请求此连接,然后用BeautifulSoup解析获取 dl > dd > a 标签的内容,其中:
图片描述

上图所示的4个 a 标签的内容只能获取到第一个“电影”,后面三个“动作”“喜剧”“剧情”获取不到,输出结果为None:图片描述

使用pyquery解析的话连None都不显示,直接跳过这三个标签了:图片描述

请问为什么会这样?

代码如下:
bs4解析:

web_data = requests.get('http://aaxxy.com/vod-detail-id-10.html ')
web_data.encoding = 'utf-8'
soup = BeautifulSoup(web_data.text,'lxml')
actor = soup.select('dl > dd > a')
print(actor)
for i in actor:
    print(i.string)

pyquery解析:

web_data = requests.get('http://aaxxy.com/vod-detail-id-10.html ')
web_data.encoding = 'utf-8'
pq = pyquery.PyQuery(web_data.text)
print(pq('dl > dd >a').text())

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

擦肩而过的背影 2022-09-12 08:46:18

因为取到的html A标签不规整,只有电影这个标签是规整的,其他的A标记都提前闭合了

<a href="/vod-type-id-1-pg-1.html">电影</a>
<a target='_blank' href='/vod-list-id-1-pg-1-order--by--class-59-year--letter--area--lang-.html' />动作</a>
<a target='_blank' href='/vod-list-id-1-pg-1-order--by--class-63-year--letter--area--lang-.html' />喜剧</a>
<a target='_blank' href='/vod-list-id-1-pg-1-order--by--class-83-year--letter--area--lang-.html' />剧情</a>
焚却相思 2022-09-12 08:46:18

图片描述

正如楼上所言,经过 BeautifulSoup 处理之后的 html 页面,对闭合产品的错误的影响,
只有string 中只有电影是闭合正确完整的,而“动作”,“喜剧”,“剧情” 的闭合都出问题了,这些 string 都排除在tag 闭合之外了。

喜你已久 2022-09-12 08:46:18

楼主你好,我也碰到这样的问题了,请问最后怎么处理呢

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文