BeautifulSoup 和 ASP.NET/C#

发布于 2024-09-11 16:16:22 字数 183 浏览 6 评论 0原文

有人将 BeautifulSoup 与 ASP.NET/C# 集成(可能使用 IronPython 或其他方式)吗? 是否有 BeautifulSoup 替代方案或与 ASP.NET/C# 配合良好的端口

计划使用该库的目的是从任何随机 URL 中提取可读文本。

谢谢

Has anyone integrated BeautifulSoup with ASP.NET/C# (possibly using IronPython or otherwise)?
Is there a BeautifulSoup alternative or a port that works nicely with ASP.NET/C#

The intent of planning to use the library is to extract readable text from any random URL.

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

°如果伤别离去 2024-09-18 16:16:22

Html Agility Pack 是一个类似的项目,但针对 C# 和 .NET


编辑:

要提取所有可读文本:

document.DocumentNode.InnerText

请注意,这将返回

要解决此问题,您可以删除所有

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

来源:SLAks

Html Agility Pack is a similar project, but for C# and .NET


EDIT:

To extract all readable text:

document.DocumentNode.InnerText

Note that this will return the text content of <script> tags.

To fix that, you can remove all of the <script> tags, like this:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
    script.Remove();
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
    style.Remove();

(Credit: SLaks)

没有你我更好 2024-09-18 16:16:22

我知道这已经很旧了,但我决定发布它以供将来参考。
我在寻找类似的解决方案时遇到了这个问题。

我发现了一个基于 Html Agility Pack 构建的库,名为 scrapysharp

我使用它的方式与 BeautifulSoup 非常相似
https://bitbucket.org/rflechner/scrapysharp/wiki/Home (编辑:链接损坏,项目移至 https://github.com/rflechner/ScrapySharp

编辑:https://www.nuget.org/packages/ScrapySharp/ 有该包

I know this is quite old, but I decided to post this for future reference.
I came across this searching for a similar solution.

I found a library built on top of Html Agility Pack called scrapysharp

I've used it in quite similar manner as I would BeautifulSoup
https://bitbucket.org/rflechner/scrapysharp/wiki/Home (EDIT: broken link, project moved to https://github.com/rflechner/ScrapySharp)

EDIT: https://www.nuget.org/packages/ScrapySharp/ has the package

鼻尖触碰 2024-09-18 16:16:22

您可以尝试一下,尽管它目前有一些错误:

http://nsoup.codeplex.com/

You could try this although it currently has a few bugs:

http://nsoup.codeplex.com/

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文