如何让 Hpricot 与 HTML5 完美配合?
我正在使用 Hpricot 来解析主题文件。然而,我注意到,如果我将有效的 HTML5 文档输入 Hpricot(),它会自动关闭 HTML5 标签(如 ),并与
DOCTYPE
混淆代码>.
Hpricot 是否有任何扩展,或者我需要设置一个标志,以允许正确解析 HTML5 文档?
I am using Hpricot to parse a theme file. I have noticed, however, that if I feed a valid HTML5 document into Hpricot(), it auto-closes HTML5 tags (like <section>
), and messes with the DOCTYPE
.
Are there any extensions to Hpricot, or perhaps a flag I need to set, that will allow HTML5 documents to be parsed correctly?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我知道它可以解决直接问题,但我建议您尝试 Nokogiri http://nokogiri.org/ 作为在您的问题帖子的一些评论中提到。我在解析任何 HTML/XML(如结构化文本)(包括 HTML5)时没有遇到任何问题。
I know it kind of works around the direct question but I would suggest you try Nokogiri http://nokogiri.org/ as mentioned in some of the comments on your question post. I've had no issues with it parsing any HTML/XML like structured text, including HTML5.
我认为 Hpricot 的 to_original_html 方法正是您所要做的寻找。
从文档,to_original_html
I think Hpricot's to_original_html method is exactly what you're looking for.
From the docs, to_original_html