MIME消息结构解析与分析

发布于 2024-12-29 15:17:03 字数 617 浏览 5 评论 0原文

我正在寻找现有的库或代码示例，以从 mime 消息结构中提取相关部分，以便对这些部分的文本内容进行分析。

我将解释：

我正在编写一个库（用 Python），它是一个需要通过 IMAP 迭代大量电子邮件消息的项目的一部分。对于每条消息，它需要确定需要哪些 mime 部分，以便分析需要最少解析量的消息文本内容（例如，更喜欢文本/纯文本而不是文本/html 或富文本）并且没有重复（即如果 text/plain 存在，则忽略匹配的 text/html）。它还需要处理嵌套部分（文本附件、转发的消息等）以及所有这些，而无需下载整个消息正文（需要太多时间和带宽）。最终目标是稍后仅检索这些部分，以便对这些消息的文本内容（不包括任何标记、元数据、二进制数据等）执行一些统计和模式分析。

我见过的库和示例需要完整的消息正文才能组装消息结构并理解消息的内容。我试图使用 IMAP FETCH 命令的响应和 BODYSTRUCTURE 数据项来实现此目的。

BODYSTRUCTURE 应该包含足够的信息来实现我的目标，但尽管结构和返回的数据已在相关 RFC（3501、2822、2045）中正式记录，但嵌套、组合和各种怪癖的数量加起来使任务非常乏味且错误修剪。

有谁知道任何可以帮助实现此目的的库或任何代码示例（最好是Python，但任何语言都可以）？

原文

分享到QQ

分享到微博