解析任何原始 HTML 的内置方法
我开始编写一个应用程序,该应用程序应该从任何指定的 HTML 页面检索元标记内容。由于我使用 .NET 2.0 来实现此目的,因此我无法使用 LINQ to XML 或现代的东西。因此,我尝试使用 XmlDocument
类。不幸的是,它无法处理无效的 XML 文档,而大多数 HTML 文档都是如此。
我什至无法使用 HtmlAgilityPack,因为我正在编写计划将来出售的应用程序,因此它可能不适合商业需求。
使用 XmlReader
似乎太难了。
那么,你们将如何解决这个问题?
POST EDIT
我最好避免使用 HtmlAgilityPack 的另一个原因是,它是一个巨大的库,需要添加到我的项目中。我会更乐意将项目保持得尽可能小。
你们真的建议我使用 HtmlAgilityPack 吗?
I start writing an app that should retrieve meta tags content from any specified HTML page. As I use .NET 2.0 for this purpose I can't use LINQ to XML or something modern. So, I tried to use XmlDocument
class. Unfortunately, it can't work with invalid XML documents, which are most HTML are.
I even can't use HtmlAgilityPack because I'm writing app that I plan to sell in future, so it probably doesn't fit commercial needs.
Working with XmlReader
seems too hard.
So, how would you guys manage this issue?
POST EDIT
Another one reason why I better avoid using HtmlAgilityPack is that it is so huge lib to adding to my project. I will be more happy keeping project as small as possible.
Do you guys really advice me use HtmlAgilityPack any way?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
HtmlAgilityPack 使用 Microsoft 公共许可证 (Ms-PL),这将允许您在商业产品,它非常自由 - 另请参阅“MS-PL 许可证如何工作吗?” 和 Microsoft 公共许可证 (Ms-PL)
HtmlAgilityPack is using a Microsoft Public License (Ms-PL), which will allow you to use it in a commercial product, it's very liberal - also see "How does MS-PL license work?" and Microsoft Public License (Ms-PL)
请参阅 MSDN。
请注意,这是一个 WebForms 控件,您可能会在 WebForms 应用程序之外运行它时遇到不同的问题。
See MSDN.
Note that this is a WebForms control, you may face different issues running it out of WebForms app.