网页噪音消除

发布于 2025-01-03 22:35:23 字数 114 浏览 0 评论 0原文

我正在尝试从网页中去除噪音。但由于我是新手,所以我不知道从哪里开始。 因此,如果有人能给我任何有关如何操作的信息,这将非常有帮助。

噪音 - 链接、版权声明等。

Sudhanshu

I am trying to do noise removal from web page . but as I am new to this so i don't know from where to start.
so if anybody can give me any information on how to do it , it will be very helpful.

Noise - links , copyright notices etc.

Sudhanshu

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

神经暖 2025-01-10 22:35:23

Boilerpipe 看起来就像您所要求的:http://code.google.com/p/boilerpipe/

boilerpipe 库提供了算法来检测和删除
主要文本周围多余的“混乱”(样板、模板)
网页内容。

该库已经为常见任务提供了具体策略(例如
例如:新闻文章提取),也可以轻松扩展为
单独的问题设置。

Boilerpipe seems like what you're asking for: http://code.google.com/p/boilerpipe/

The boilerpipe library provides algorithms to detect and remove the
surplus "clutter" (boilerplate, templates) around the main textual
content of a web page.

The library already provides specific strategies for common tasks (for
example: news article extraction) and may also be easily extended for
individual problem settings.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文