为什么BeautifulSoup find_all 返回的list都不是按照网页显示顺序排序的？

发布于 2022-09-04 15:15:33 字数 1361 浏览 9 评论 0

我想爬糗百的段子，显示作者，和对应的段子，先只爬第一面

import requests
from bs4 import BeautifulSoup as bs
page = 1
url = "http://www.qiushibaike.com/hot/page/"
r = requests.get(url+str(page))
soup = bs(r.content,"html.parser")
names = []
for n in  soup.find_all("a",{"href":True,"target":True,"title":True}):
    names += [n.h2.get_text()]
print(names)

print 结果：

['威信红包接龙关注', 'ZBZBZBZ', '养贼专业户', '柱流年', '大风起兮雪飞扬', '依然家的麦芽糖', '小小&妖精', '苍南下山耍流氓，黑衣格哥买红糖', '九妹妹～', '亲爱de橄榄绿', '有点胖的妮妮', '污奇奇', '没办法就是这么帅', '亦龙', '哇噻～桃宝', '单名一个饭字', 'ni敢拿命疼我吗？', '许我三日暖', '半阙词曲丶', '谁动了我的粮食？']

html.fromstring xpath 也这样

from lxml import html
import requests
page = 1
url = "http://www.qiushibaike.com/hot/page/"
r = requests.get(url+str(page))
tree = html.fromstring(r.content)
print(tree.xpath('//*[@class="article block untagged mb15"]/div[1]/a[2]/h2/text()'))

print 结果：

['威信红包接龙关注', 'ZBZBZBZ', '养贼专业户', '大风起兮雪飞扬', '柱流年', '依然家的麦芽糖', '小小&妖精', '苍南下山耍流氓，黑衣格哥买红糖', '九妹妹～', '亲爱de橄榄绿', '有点胖的妮妮', '污奇奇', '没办法就是这么帅', '亦龙', '单名一个饭字', 'ni敢拿命疼我吗？', '许我三日暖', '半阙词曲丶', '根@儿', '我是你的绝无仅有']

但网页的实际显示顺序是:

['威信红包接龙关注', '养贼专业户', 'ZBZBZBZ', '柱流年', '有点胖的妮妮', '依然家的麦芽糖', '小小&妖精', '大风起兮雪飞扬', '苍南下山耍流氓，黑衣格哥买红糖', '九妹妹～',  '亦龙'...]

如何让返回的list的元素的顺序和网页显示顺序相同？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

耳钉梦 2022-09-11 15:15:33

应该是因为它页面的内容的排序是在变动的。他的排序是根据评论里面的个“好笑”数来排的，好笑数字接近的，顺序变化正常，而且有时有新的段子加入这页。你浏览器取得页面的时间，和爬虫爬取的时间不一样，看到的段子顺序不一样很正常。

回复收藏 0

~没有更多了~

关于作者

请帮我爱他

暂无简介

0 文章

0 评论

22 人气

关注发私信

策马西风

文章 0 评论 0

关注

柠檬心

文章 0 评论 0

关注

1331

文章 0 评论 0

关注

七度光

文章 0 评论 0

关注

qq_oc2LaO

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

友情链接

文江博客

为什么BeautifulSoup find_all 返回的list都不是按照网页显示顺序排序的？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

策马西风

柠檬心

1331

七度光

qq_oc2LaO

野却迷人

友情链接

为什么BeautifulSoup find_all 返回的list都不是按照网页显示顺序排序的？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

策马西风

柠檬心

1331

七度光

qq_oc2LaO

野却迷人

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。