当前位置：文江博客话题详情

对 SMTP 和 NNTP 消息进行哈希处理？

发布于 2024-08-23 07:48:53 字数 331 浏览 7 评论 0原文

我想使用一些基于消息正文+标头计算的哈希代码将所有历史电子邮件和新闻存储为单独的消息文件并为其建立索引。然后我也会对其他东西建立索引——用于搜索。

对于主索引键，我的想法是使用 SHA-1 作为哈希算法，并假设永远不会发生任何冲突（尽管我知道理论上可能存在）。

除了正文之外，我还应该对哪些标头建立索引？或者更一般地说，在散列之前我应该对消息的内存副本应用哪些转换？

我应该忽略“ReSent-*:”标头吗？我应该将断行标题加入到单行标题中并删除无关的空格吗？

（我想根据某个头而不是 Message-ID 标头对消息进行索引的原因是 Message-ID 标头的格式不统一。）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

Saygoodbye 2024-08-30 07:48:53

您应该精确地散列构成消息唯一性的内容。如果两条消息可能因存在“ReSent-*:”标头而有所不同，但仍必须被视为“相同”消息，则这些标头不得成为散列内容的一部分。同样，如果相同的消息在标头语法中可能不同，那么您应该规范标头语法。仅当输入的每一位都完全相同时，诸如 SHA-1 之类的哈希函数才会返回相同的输出。

现在，如果使用 Message-ID 对您来说已经足够了，除了格式问题之外，还有一个简单的方法：只需对 Message-ID 进行哈希处理即可。散列消息 ID 将具有您可以索引的常规、固定大小、随机格式。

回复收藏 0 原文

~没有更多了~