如何获取lxml中元素的路径？

发布于 2024-08-08 04:15:51 字数 304 浏览 5 评论 0原文

我正在使用 python 中的 lxml 中的 XPath 在 HTML 文档中进行搜索。如何获取某个元素的路径？以下是 ruby nokogiri 的示例：

page.xpath('//text()').each do |textnode|
    path = textnode.path
    puts path
end

print for example '/html/body/div/div[1]/div[1]/p/text()[1]' 这是字符串 I想进入Python。

原文

I'm searching in a HTML document using XPath from lxml in python. How can I get the path to a certain element? Here's the example from ruby nokogiri:

page.xpath('//text()').each do |textnode|
    path = textnode.path
    puts path
end

print for example '/html/body/div/div[1]/div[1]/p/text()[1]' and this is the string I want to get in python.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

野生奥特曼 2024-08-15 04:15:51

使用 ElementTree 对象中的 getpath 。

from lxml import etree

root = etree.fromstring('''
    <foo><bar>Data</bar><bar><baz>data</baz>
    <baz>data</baz></bar></foo>
    ''')

tree = etree.ElementTree(root)
for e in root.iter():
    print(tree.getpath(e))

印刷

/foo
/foo/bar[1]
/foo/bar[2]
/foo/bar[2]/baz[1]
/foo/bar[2]/baz[2]

Use getpath from ElementTree objects.

from lxml import etree

root = etree.fromstring('''
    <foo><bar>Data</bar><bar><baz>data</baz>
    <baz>data</baz></bar></foo>
    ''')

tree = etree.ElementTree(root)
for e in root.iter():
    print(tree.getpath(e))

Prints

/foo
/foo/bar[1]
/foo/bar[2]
/foo/bar[2]/baz[1]
/foo/bar[2]/baz[2]

回复收藏 0 原文

鲜血染红嫁衣 2024-08-15 04:15:51

请参阅 lxml 文档中的 Xpath 和 XSLT with lxml 这给出了包含文本的元素的路径

一个示例会是

import cStringIO
from lxml import etree

f = cStringIO.StringIO('<foo><bar><x1>hello</x1><x1>world</x1></bar></foo>')
tree = lxml.etree.parse(f)
find_text = etree.XPath("//text()")

# and print out the required data
print [tree.getpath( text.getparent()) for text in find_text(tree)]

# answer I get is 
>>> ['/foo/bar/x1[1]', '/foo/bar/x1[2]']

See the Xpath and XSLT with lxml from the lxml documentation This gives the path of the element containg the text

An example would be

import cStringIO
from lxml import etree

f = cStringIO.StringIO('<foo><bar><x1>hello</x1><x1>world</x1></bar></foo>')
tree = lxml.etree.parse(f)
find_text = etree.XPath("//text()")

# and print out the required data
print [tree.getpath( text.getparent()) for text in find_text(tree)]

# answer I get is 
>>> ['/foo/bar/x1[1]', '/foo/bar/x1[2]']

回复收藏 0 原文

掀纱窥君容 2024-08-15 04:15:51

如果您的代码部分中只有元素，并且您希望元素的 xpath 执行此操作，则 element.getroottree().getpath(element) 将完成这项工作。

from lxml import etree

xml = '''
<test>
    <a/>
    <b>
       <i/>
       <ii/>
    </b>
</test>
'''
tree = etree.fromstring(xml)

for element in tree.iter():
    print element.getroottree().getpath(element)

If all you have in your section of code is the element and you want the element's xpath do then element.getroottree().getpath(element) will do the job.

from lxml import etree

xml = '''
<test>
    <a/>
    <b>
       <i/>
       <ii/>
    </b>
</test>
'''
tree = etree.fromstring(xml)

for element in tree.iter():
    print element.getroottree().getpath(element)

回复收藏 0 原文

少女的英雄梦 2024-08-15 04:15:51

root = etree.parse(open('tmp.txt'))

for e in root.iter():
    print root.getpath(e)

root = etree.parse(open('tmp.txt'))

for e in root.iter():
    print root.getpath(e)

回复收藏 0 原文

~没有更多了~

关于作者

音盲

暂无简介

0 文章

0 评论

21 人气

关注发私信

qq_FjTq5B

文章 0 评论 0

关注

18273202778

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

〃温暖了心ぐ

文章 0 评论 0

关注

迷乱花海

文章 0 评论 0

关注

niuniu

文章 0 评论 0

友情链接

文江博客

如何获取lxml中元素的路径？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

如何获取lxml中元素的路径？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

qq_FjTq5B

18273202778

WordPress小学生

〃温暖了心ぐ

迷乱花海

niuniu

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。