DOM是如何解析的?
我的问题很简单:当前的 DOM 解析器实际上如何从字符串(XML、 HTML,或其他)?
我知道你不应该用RegEx解析html ,但是 DOM 解析器不能使用 RegEx 来匹配打开/关闭标记的模式吗?或者,是否有一个好的一次性算法可以将提供的字符串解析为字符数组?
Possible Duplicate:
If you're not supposed to use Regular Expressions to parse HTML, then how are HTML parsers written?
My question is simple: How do current DOM parsers actually parse the DOM from a string (XML, HTML, or otherwise)?
I know you shouldn't parse html with RegEx, but couldn't a DOM parser use RegEx to match patterns for open/close tags? Or, is there a good once-over algorithm for parsing the provided string as a character array?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
看看这个:
如果不使用正则表达式,HTML 解析如何工作?
解析 HTML 文档:
这是一个很好的示例
Look at this:
How do HTML parses work if they're not using regexp?
Parsing HTML documents:
Here is a good Example
好吧,您可以从以下基本方法开始:
http ://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c
然后将其扩展以将所有内容存储到完整的 DOM 树结构中。
Well, you could start with a basic approach along the lines of:
http://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c
And then just expand it to store everything into the full DOM tree structure.