XML::LibXML::Reader 能否读取 HTML?
我在 XML::LibXML::Reader 中没有找到任何有关解析 HTML 的内容文档。我尝试解析 HTML 站点,但没有成功。 我的结论是 XML::LibXML::Reader 不能与 HTML 一起使用吗?
I didn't find anything about parsing HTML in the XML::LibXML::Reader documentation. And I tried to parse a HTML-site and it didn't work.
Is my conclusion, that XML::LibXML::Reader doesn't work with HTML right?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
除非它确实是 XHTML,否则不会。 XML 比 HTML 具有更多的限制,并且 XML 解析器通常无法解析 HTML。
HTML::TokeParser (或其基类 HTML::PullParser) 与 XML::LibXML::Reader (但并非全部相似)。
您可能需要查看 HTML-Tree ,以获取类似于 LibXML 的功能与 HTML。还有 HTML::TreeBuilder::LibXML,它包装了一个偶数与 HTML-Tree 相关的更多 LibXML 兼容接口。
Unless it's really XHTML, then no. XML is much more restrictive than HTML is, and XML parsers normally can't parse HTML.
HTML::TokeParser (or its base class HTML::PullParser) are the most similar to XML::LibXML::Reader (but not all that similar).
You might want to look at HTML-Tree for something similar to LibXML that does work with HTML. There's also HTML::TreeBuilder::LibXML, which wraps an even more LibXML-compatible interface around HTML-Tree.
不,但是 HTML::TreeBuilder::LibXML 实现了兼容的接口在 HTML passer 上。
No, but HTML::TreeBuilder::LibXML implements a compatible interface on an HTML paser.