从旧的 Word 文件中提取元数据（从 2.0 开始）

发布于 2024-09-28 06:11:54 字数 653 浏览 6 评论 0原文

我必须从大量（我的小型工作样本有数百个，总数可能是数千个）Microsoft Office 文件（主要是 Word 文件）中提取元数据。

这些文件的Word版本从Word 2.0到Word 2007。

我必须在.net 3.5（使用c#）中完成它，它是一个本地winforms应用程序。

我想，我可以使用 OLE Automation (DsoFile.dll) 从最新的元数据中提取元数据。我和其中一些人成功地做到了这一点。

问题是 DsoFile 不支持旧格式。他们可能不使用 OLE。

我做了很多谷歌搜索，发现获取我想要的数据的最佳（可能是唯一）方法是使用反词（http://www.winfield.demon.nl/）。使用反词，我可以调用它的过程并收集它的输出。它可以提取一些数据，但不是我需要的全部数据。示例：反词只给我一个存储日期，而我需要其中两个。

还有 wvware，但我猜它是仅限 Linux 的。

另一个选择是 gnu libextractor，但我找不到在 .net

Office Interop 上使用的方法，这将是绝望的最后手段。我还没有测试过这个选项，但我猜当一个人想要以良好的性能处理大量文件时，这不是一个选择。

有人可以帮忙吗？如果您需要更多数据，请询问。

对不起我的英语，我不是母语人士。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

野味少女 2024-10-05 06:11:54

我曾经在商业办公室元数据提取和报告工具上工作。这不是一件容易的事，特别是如果您还想删除任何元数据。从它的声音来看，你只是想报告它，所以这样更好。

从 word2000 开始，Word 文件存储在 OLE 复合文档中。网上有很多关于阅读这些文件的文档，但请记住，这只能为您提供元数据的一小部分。 Word 文档的大部分“内容”都作为大型二进制 blob 存储在复合文档文件中，并且这些 blob 的格式是专有的。

网上有 DOC 文件格式的文档。

http://msdn.microsoft.com/en-us/library/cc313118.aspx

但这是一个庞大的规范并且极其复杂。尽管如此，您也许能够找出那些您需要处理的部分。

较新的 DOCX 文件更容易处理（并且潜伏的元数据也少得多）。

回复收藏 0 原文

~没有更多了~

关于作者

成熟的代价

暂无简介

文章

378 人气

关注发私信

友情链接

文江博客

从旧的 Word 文件中提取元数据（从 2.0 开始）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

微信用户

夜夜流光相皎洁

零度℉

百度③文鱼

qq_O3Ao6frw

Wugswg

友情链接

从旧的 Word 文件中提取元数据（从 2.0 开始）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

微信用户

夜夜流光相皎洁

零度℉

百度③文鱼

qq_O3Ao6frw

Wugswg

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。