通过 html 敏捷性仅从 html 获取文本

发布于 2024-10-14 21:24:14 字数 746 浏览 4 评论 0原文

我试图从 html 中删除与 html 敏捷性相关的所有内容,但我需要保留文本。例如,从这个标签:

<TR><TD> 
<B><A HREF="survival/index.html">Survival</A></B><BR> 
<I>Be Suspicious, Be Worried, Be Prepared</I><BR> 
<TD> 

我只想保留“可疑......”

我有这个方法,但效果不是很好:

    private static HtmlDocument RemoveHTML(HtmlDocument document)
    {
        HtmlDocument textOfDoc = new HtmlDocument();
        foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body"))
        {
            var newNode = HtmlNode.CreateNode(node.InnerText+" ");
            textOfDoc.DocumentNode.AppendChild(newNode);
        }
        return textOfDoc;
    }

谢谢!

I'm trying to remove from the html everything that is concerned to html with html agility, but I need to keep the text. For example, from this tag:

<TR><TD> 
<B><A HREF="survival/index.html">Survival</A></B><BR> 
<I>Be Suspicious, Be Worried, Be Prepared</I><BR> 
<TD> 

I want to keep only "Be suspicious..."

I have this method, but doesn't work very well:

    private static HtmlDocument RemoveHTML(HtmlDocument document)
    {
        HtmlDocument textOfDoc = new HtmlDocument();
        foreach (var node in document.DocumentNode.SelectNodes(".//p|.//title|.//body"))
        {
            var newNode = HtmlNode.CreateNode(node.InnerText+" ");
            textOfDoc.DocumentNode.AppendChild(newNode);
        }
        return textOfDoc;
    }

THANKS!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

哀由 2024-10-21 21:24:14

看起来您只提取了 P、TITLE 和 BODY 标签。如果你也想要 I 标签,你需要这样做:

document.DocumentNode.SelectNodes(".//p|.//title|.//body|.//i")

It looks like you're only extracting P, TITLE and BODY tags. If you want I tags as well, you need to do this:

document.DocumentNode.SelectNodes(".//p|.//title|.//body|.//i")
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文