从各种来源汇总

发布于 2024-09-18 23:46:11 字数 344 浏览 22 评论 0原文

这可能是一个远远超出我现在能力的项目，但我还有大约一整月的时间来完成它，所以我认为我可以做到。我想要构建的是：从各种来源收集有关特定主题的新闻。容易，对吧？只需获取 RSS 提要并将其显示在页面上即可。好吧，我想要一些更高级的东西：重复删除和自定义演示（即能够定义/更改新闻标题的显示格式）。

我使用过 Yahoo Pipes 和其他一些工具，但我面临着两个大问题：

某些来源不提供 rss 提要。我如何创建一个？
查找和删除重复项的最佳方法是什么？我考虑比较一下标题并检查是否存在大于 50% 的匹配。但这是一个好的做法吗？

请添加我可能没有考虑到的任何其他事情（问题、建议等）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

信愁 2024-09-25 23:46:11

重复是一个令人讨厌的问题。我最终做了什么：

1. 去掉除链接之外的所有 HTML 标签（虽然我开始使用正则表达式，但我很受伤。我最终转向自定义解析以删除标签）
2. 去掉所有空格
3. 区分大小写
4 . 使用 MD5 对所有内容进行哈希处理。

这就是您将链接保留在以下位置的原因：
评论可能很简单，比如“是的，这很糟糕”。 “是的，这很糟糕”可能是一个常见的评论。但是，如果文本“这很糟糕”链接到不同的事物，那么它就不是重复的评论。

此外，您会发现 HTML 标签转义对于 RSS 提要来说很奇怪。你可能会认为流浪<<将被双重编码：（我认为）&<;
但事实并非如此。它被编码<
但 HTML 标签也是如此！

我最终复制了 Mozilla Firefox 解析的所有已知 HTML 标签，并手动识别这些标签。

从 HTML 创建 RSS 提要非常麻烦，我只能向您推荐 Spinn3r 等服务，它们在重复数据删除和内容提取方面非常出色。这些服务通常使用高于我的基于概率的算法。我知道有一家提供商成功地对页面进行了重新调整（他们必须知道某个页面是基于 MySpace 或 Blogger 的），但他们的表现并不理想。