用于电子邮件清理的开源项目从非结构化源生成结构化数据？

发布于 2024-12-20 10:30:37 字数 571 浏览 6 评论 0 原文

不知道从哪里开始，所以希望你们能解决我的问题。我有一个项目，将在电子邮件中搜索特定的单词/模式并以结构化的方式存储。使用 Trip it 完成的事情。

文章指出他们开发了一个 DataMapper

DataMapper 负责接收入站电子邮件消息发送至 tripit.com 上的计划，并将其从您在邮件阅读器中看到的半结构化格式变成了高度结构化 XML 文档。

有评论也说

如果您想自己构建这个，请阅读一些关于包装器和包装器感应可能会有所帮助

我在谷歌上搜索并阅读了有关包装器归纳的内容，但它的定义太宽泛，无法帮助我理解如何解决此类问题。

有没有一些开源项目可以做类似的事情？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夏了南城 2024-12-27 10:30:37

您可以采取多种不同的方法和措施来实现这一目标。

第一部分涉及访问电子邮件内容，我不会在这里回答。基本上，我假设您可以访问电子邮件文本，如果您不能访问电子邮件文本，则有一些库允许您将 java 连接到电子邮件箱，例如camel (http://camel.apache.org/mail.html)。

现在您已经收到电子邮件了，然后呢？

一个可以帮助的方便的事情是 lingpipe (http://alias-i.com/lingpipe/) 有一个实体识别器，您可以用自己的术语填充。具体来说，看看他们的一些提取教程和字典提取器（ http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html）所以在 lingpipe 字典提取器内部（http://alias-i.com/lingpipe/docs/ api/com/aliasi/dict/ExactDictionaryChunker.html）您只需导入您感兴趣的术语并使用它来将标签与电子邮件关联起来。

您可能还会发现以下问题很有帮助：字典-基于零编辑距离的命名实体识别：LingPipe、Lucene 还是什么？

回复收藏 0 原文

夏夜暖风 2024-12-27 10:30:37

这确实是一个非常广泛的问题，但我可以尝试给您一些一般性的想法，这可能足以开始。基本上，听起来您正在谈论一个复杂的解析问题 - 扫描文本并寻找将含义应用于特定块。根据您到底要查找的内容，您可能会从一些正则表达式中获得一些不错的结果 - 例如电话号码、电子邮件地址和日期等具有相当标准的结构，应该是可匹配的。其他数据点可能会受益于一些指示词——短语“出发”可能表明接下来是一个地址。自然语言处理社区还有一个可用于文本处理的大型工具集 - 检查词性标注器和语义分析器等工具是否适合您想要做的事情。

有了这些技术，您就可以遵循基本的迭代开发过程：对于预期输出结构中的每个数据点，定义一些关于如何捕获它的简单规则。然后，对一批测试数据运行应用程序，并查看哪些样本未捕获该数据。查看样本并修改规则以捕获这些样本。重复直到提取器达到可接受的精度水平。

根据您问题的具体情况，可能有机器学习技术可以为您自动化大部分流程。