从 HTML 页面中提取可本地化的内容
我需要一些关于在我正在从事的项目中需要实现的功能的最佳方法的建议。
基本上,我需要能够从 HTML 页面中提取所有可本地化的内容(即所有字符串)。我真的不想去编写 HTML 解析器。该应用程序是用 C# 编写的。
有没有人有这方面的经验,或者有人可以推荐一个我可以用来完成此任务的现有库吗?
谢谢。
I need some advice on the best aproach to a feature I need to implement in a project I'm working on.
Basically, I need to be able to extract all localizable content (i.e. all the strings) from a HTML page. I really don't want to have to go and write a HTML parser. The application is written in C#.
Has anybody got any experience with this, or can anyone recommend an existing library that I could use to accomplish this?
Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您不必编写自己的解析器。幸运的是,其他人已经这么做了。
要解析 HTML 文件,您可以使用 HTML Agility Pack。
在这种情况下,您将收到文档对象模型,您可以像任何其他 DOM 一样使用它。请查找以下示例:
https://web.archive.org/web/20211020001935/https://www.4guysfromrolla.com/articles/011211-1.aspx
http://htmlagilitypack.codeplex.com/wikipage?title=Examples&referringTitle= Home
这个问题:
如何使用 HTML Agility包
You do not have to write your own parser. Fortunately somebody else already did that.
To parse HTML file, you can use HTML Agility Pack.
In this case you would receive Document Object Model, which you can walk just like any other DOM. Please find these examples:
https://web.archive.org/web/20211020001935/https://www.4guysfromrolla.com/articles/011211-1.aspx
http://htmlagilitypack.codeplex.com/wikipage?title=Examples&referringTitle=Home
And this question:
How to use HTML Agility pack