当前位置：文江博客话题详情

寻找主要内容的启发式方法

发布于 2024-10-17 19:11:41 字数 283 浏览 4 评论 0原文

想知道是否有人可以向我指出学术论文的方向或启发式方法的相关实现，以查找特定网页的真实内容。

显然这不是一个简单的任务，因为问题描述是如此模糊，但我认为我们都对页面主要内容的含义有一个大致的了解。

例如，它可能包括新闻文章的故事文本，但可能不包括任何导航元素、法律免责声明、相关故事预告片、评论等。文章标题、日期、作者姓名和其他元数据属于灰色类别。

我认为这种方法的应用价值很大，并且希望谷歌在他们的搜索算法中以某种方式使用它，所以在我看来，这个主题过去已经被学术界对待过。

有参考资料吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

嘿嘿嘿 2024-10-24 19:11:41

看待这个问题的一种方法是将其视为信息提取问题。

因此，一种高级算法是收集相同页面类型的多个示例，并推断页面不同部分的解析（或提取）规则（这可能是主要主题）。直觉是，常见的样板文件（页眉、页脚等）和广告最终会出现在这些网页的多个示例上，因此通过对其中一些示例进行训练，您可以快速开始可靠地识别此样板文件/附加代码，然后忽略它。它并非万无一失，但这也是商业和学术网络抓取技术的基础，例如 RoadRunner：

引文是：

Valter Crescenzi，Giansalvatore Mecca，
保罗·梅里亚多：RoadRunner：走向
自动从大数据中提取数据
网站。 VLDB 2001：109-118

还有一项被广泛引用的提取技术调查：

阿尔贝托·HF·兰德 (Alberto HF Laender)、贝蒂尔·A.
里贝罗-内托、阿尔蒂格兰·S·达席尔瓦、
朱莉安娜·S·特谢拉 (Juliana S. Teixeira)，简要调查
Web数据提取工具，ACM SIGMOD
记录，v.31 n.2，2002 年 6 月
[doi>10.1145/565117.565137]