python lxml中xpath解析sina只得到head

发布于 2022-08-29 18:59:56 字数 1400 浏览 11 评论 0

我在用urllib2和lxml解析sina主站点，我成功获得了页面，做了编码转换（print出来看是成功的），但是xpath解析只能得到html和head。

        html = self._Encoding(html)
        page = etree.HTML(html)
        if page == None:
            self.log.error('You got a None page,may be Encoding error, %s',page)
            return (None,None)

        x = page.xpath('/html')
        print x,type(x)
        for tmp in x:
            print tmp
            print tmp.tag
            print tmp.attrib
            print tmp.text
            for i in tmp.getchildren():
                print i.text
                print i.attrib
                print i.tag

如上，我得到：

  [<Element html at 0x2a04d08>] <type 'list'>
  <Element html at 0x2a04d08>
  html
  {}


  {}
  head

写的有点乱，全部的代码在:https://github.com/tdifg/Spidey/blob/master/spider/myspider.py
关键部分在_PageHandle函数中
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
重新编辑下，意思是这样的，如下：

        x = page.xpath('/html')
        print x[0].getchildren(),'child'

应该是输出这样的：

        [<Element head at 0x2a57188>, <Element body at 0x2a57148>]

但是结果是这样的：

        [<Element head at 0x2ac0ec8>]

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

青春有你 2022-09-05 18:59:56

问题解决了，在这里记下。
问题就是我在改变了编码之后没有改变html页面的charset，而lxml根据页面做xpath解析就…所以解析不出东西。

回复收藏 0

~没有更多了~

关于作者

舞袖。长

暂无简介

0 文章

0 评论

23 人气

关注发私信

不再见

文章 0 评论 0

关注

真是无聊啊

文章 0 评论 0

关注

樱娆

文章 0 评论 0

关注

浅语花开

文章 0 评论 0

关注

烛光

文章 0 评论 0

关注

绻影浮沉

文章 0 评论 0

友情链接

文江博客

python lxml中xpath解析sina只得到head

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

不再见

真是无聊啊

樱娆

浅语花开

烛光

绻影浮沉

友情链接

python lxml中xpath解析sina只得到head

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

不再见

真是无聊啊

樱娆

浅语花开

烛光

绻影浮沉

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。