禁用 Nokogiri 中的错误纠正
我正在处理许多格式错误的 HTML 页面。至少,我认为它们格式错误,因为当我在 Nokogiri 中解析它们然后执行 to_html 时,元素不再正确显示。然而,当我用 Hpricot 解析它们时,它们显示正确。
我宁愿不使用 Hpricot,因为似乎不可能将 Hpricot::Elem 实例添加到文档中(不将它们转换为字符串,添加,然后再次解析)。
我可以禁用 Nokogiri 的纠错功能,以便保留 HTML 使其更接近其编写方式吗?
I'm working with a number of malformed HTML pages. At least, I presume they're malformed because when I parse them in Nokogiri and then execute to_html, elements don't appear correctly anymore. When I parse them with Hpricot, however, they display correctly.
I'd rather not use Hpricot because it appears to be impossible to add Hpricot::Elem instances to a document (without converting them to strings, adding, then parsing again).
Can I disable Nokogiri's error correction so that I can preserve the HTML closer to the way it was written?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您的 XHTML 不是有效的 XHTML。如果我从 http://pastie.org/2638305 复制内容,请将它们另存为“foo.xhtml”并然后尝试在 Chrome 中打开它们,我看到:
如果我查看第 768 行,我会看到(截断):
如您所见,这显然在语法上无效。
您声称您通过 validator.w3.org 运行了该页面,但是当我对您的馅饼内容执行此操作时,我得到:
那么...您的实际内容不是您放入馅饼中的内容吗?
Your XHTML is not valid XHTML. If I copy the contents from http://pastie.org/2638305, save them as 'foo.xhtml' and then attempt to open them in Chrome, I see:
If I look on line 768 then I see (truncated):
As you can see, that is clearly not syntactically valid.
You claim that you ran the page through validator.w3.org, but when I do that with the contents of your pastie I get:
So...is your actual content not what you put in the pastie?