这对于 Html 解析器来说不是一个合适的场景吗？

发布于 2024-11-25 23:50:27 字数 655 浏览 0 评论 0原文

我必须处理 Html 属性中格式错误的 Html 和 Html 标签：

<p class="<sometag attr="something"></sometag>">   
    <a href="<someothertag></someothertag">Link</a>
</p>

我尝试使用 HtmlAgilityPack 解析内容，但是当您将上述代码加载到 HtmlDocument 中时，OuterHtml 输出：

<p class="<sometag attr=" something"="">">
    <a href="<someothertag></someothertag">Link</a>
</p>

p 标签格式错误，并且 a 标签的 href 属性内的 someothertag 未被识别为节点（虽然它实际上是属性内的文本，但我希望它被识别为标签）。

我还可以使用其他东西来帮助我解析这样的不良 Html 吗？

原文

I have to deal with malformed Html and Html tags inside Html attributes:

<p class="<sometag attr="something"></sometag>">   
    <a href="<someothertag></someothertag">Link</a>
</p>

I tried using HtmlAgilityPack to parse out the content but when you load the above code into an HtmlDocument, the OuterHtml outputs:

<p class="<sometag attr=" something"="">">
    <a href="<someothertag></someothertag">Link</a>
</p>

The p tag becomes malformed and the someothertag inside the href attribute of the a tag is not recognized as a node (although it's really text inside an attribute, I would like it to be recognized as a tag).

Is there something else I can use to help me parse bad Html like this?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

春花秋月 2024-12-02 23:50:27

它不是有效的 html，所以我认为您不能依赖 html 解析器来解析它。

回复收藏 0 原文

冰雪梦之恋 2024-12-02 23:50:27

您可能会对解析器提出很多要求，因为这可能是一种罕见的情况。您可能需要自己解决这个问题。

我看到的主要问题是属性值中存在多组双引号。是否保证标记对于每个开头始终具有匹配的结束字符？换句话说，对于每个 < 都会有一个 >，并且对于每个空头 " 或 '，如果是这样的话，我的建议是获取 HTML 解析器（例如 Html Agility Pack）的源代码，

并为属性解析添加一些功能；对每个开始字符使用堆栈，然后读取。您找到另一个开始或结束字符 If。如果它正在打开，则推送它，如果它正在关闭，则弹出它。

或者，您可以添加对属性值中小于和大于字符的检测，并且在所有包含的标签都关闭之前不识别属性值的结尾。

另一种可能的解决方案是在将源标记传递给解析器之前修改源标记，并将属性值中的非法字符更改为转义字符（与分号），不幸的是，这需要您进行一些初步解析。

回复收藏 0 原文

~没有更多了~

关于作者

弥枳

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

这对于 Html 解析器来说不是一个合适的场景吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

这对于 Html 解析器来说不是一个合适的场景吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Promise

qq_lbRlsh

待＂谢繁草

yy2010hell

漫无边际

傲娇萝莉攻

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。