通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

发布于 2024-08-10 16:28:01 字数 460 浏览 11 评论 0原文

我正在抓取新闻网站，想要提取新闻标题、新闻摘要（第一段）等，

我插入了 webkit 解析器代码，以轻松地以树形式导航网页。为了消除导航和其他非新闻内容，我采用文章的文本版本（减去 html 标签，webkit 提供了相同的 api）。然后我运行 diff 算法来比较来自同一网站的各种文章的文本，这会导致相似的文本被删除。这给了我减去常见导航内容等的内容。

尽管采用上述方法，我仍然在最终文本中收到相当多的垃圾。这会导致提取不正确的新闻摘要。错误率为十分之五，即 50%。错误如

您

建议提取纯内容的替代策略，
学习自然语言处理是否有助于从这些文章中提取正确的摘要？学习自然语言处理是否
您将如何解决上述问题？。
这些是否有相同的研究论文？。

问候

安库尔·古普塔

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小镇女孩 2024-08-17 16:28:01

您可以在 Google 代码上查看我的 boilerpipe 项目，并在您选择的页面上测试它使用 Google AppEngine 上的实时网络应用程序（从那里链接）。

我正在研究这个领域，并撰写了一些关于从 HTML 页面中提取内容/样板文件的论文。例如，请参阅“使用浅文本功能的样板检测”并观看 VideoLectures.net 上的相应视频。本文应该让您对这一领域的最新技术有一个很好的概述。

干杯，

克里斯蒂安

回复收藏 0 原文

夏末染殇 2024-08-17 16:28:01

对于问题（1），我不确定。我以前没有这样做过。也许其他答案之一会有所帮助。

对于问题（2），自动创建摘要并不是一个成熟的领域。它通常被称为“句子选择”，因为现在典型的方法是只选择整个句子。

对于问题（3），从机器学习创建摘要的基本方法是：

创建现有摘要的语料库
以有用的方式注释摘要。例如，您可能想要指出是否选择了原文中的每个句子以及为什么（或为什么不选择）。
在语料库上训练某种分类器，然后用它对新文章中的句子进行分类。

我最喜欢的机器学习参考文献是 Tom Mitchell 的机器学习。它列出了实现步骤(3)的多种方法。

对于问题（4），我确信有几篇论文，因为我的导师去年提到过，但我不知道从哪里开始，因为我不是该领域的专家。

回复收藏 0 原文

叹梦 2024-08-17 16:28:01

我不知道它是如何工作的，但检查一下可读性。它完全符合您的要求。

回复收藏 0 原文

~没有更多了~

关于作者

沧桑㈠

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。