文本挖掘 Outlook 电子邮件存档
我正在考虑对一组包含超过 4 年通信时间的大型单独 .pst 文件进行一些文本挖掘。
最初,我只想提取标头信息来识别社交网络,但最终希望开始根据关键字对电子邮件进行分类,或创建一些支持进一步分析的结构化输出。
有人有什么建议从哪里开始吗?
I am considering preforming some text-mining on a set of large individual .pst file containing >4 years of communication.
Initially, I would like to just extract the header information to identify social networks, but ultimately would like to begin to classify emails based on key-words or create some structured output that would support some further analysis.
Does anyone have any suggestions where to begin?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您应该检查在公开的 安然电子邮件数据集 -> 上所做的研究该页面有一些有趣论文的链接
You should check the research done on the publicly available Enron Email Dataset -> The page has link to some interesting papers