Nokogiri pull 解析器 (Nokogiri::XML::Reader) 存在自关闭标签问题
我有一个包含产品的巨大 XML(>400MB)。因此,使用 DOM 解析器被排除在外,所以我尝试使用拉解析器来解析和处理它。下面是来自 each_product(&block)
方法的片段,我在其中迭代产品列表。
基本上,使用堆栈,我将每个
节点转换为哈希并对其进行处理。
while (reader.read)
case reader.node_type
#start element
when Nokogiri::XML::Node::ELEMENT_NODE
elem_name = reader.name.to_s
stack.push([elem_name, {}])
#text element
when Nokogiri::XML::Node::TEXT_NODE, Nokogiri::XML::Node::CDATA_SECTION_NODE
stack.last[1] = reader.value
#end element
when Nokogiri::XML::Node::ELEMENT_DECL
return if stack.empty?
elem = stack.pop
parent = stack.last
if parent.nil?
yield(elem[1])
elem = nil
next
end
key = elem[0]
parent_childs = parent[1]
# ...
parent_childs[key] = elem[1]
end
问题在于自闭合标签(EG
),因为我无法区分“正常”标签和“自闭合”标签。它们都是 Nokogiri::XML::Node::ELEMENT_NODE
类型,我无法在 文档。
关于如何解决这个问题有什么想法吗?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
项目页面上有一个关于此问题的功能请求(以及相应的测试失败)。
在它被修复并推送到当前版本之前,我们将坚持使用 good'ol
There is a feature request on project page regarding this issue (with the corresponding failing test).
Until it will be fixed and pushed into the current version, we'll stick with good'ol
嘿,Vlad,我不是 Nokogiri 专家,但我做了一个测试,发现 self_looking?() 方法在确定自关闭标签方面效果很好。尝试一下。
PS:我知道这是一篇旧文章:P/文档是 这里
Hey Vlad, well I am not a Nokogiri expert but I've done a test and saw that the self_closing?() method works fine on determining the self closing tags. Give it a try.
P.S. : I know this is an old post :P / the documentation is HERE