当前位置：文江博客话题详情

将 Microsoft Office 文档转换为文本

发布于 2024-08-11 21:35:08 字数 1539 浏览 9 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

千秋岁 2024-08-18 21:35:08

新的 Office 2007 格式只是 (ZIP) 压缩的 XML。

所有文本（至少为 .docx 格式）都位于（解压缩文件后）word 文件夹 document.xml 文件中。将其从所有 XML 标记中剥离出来，您将获得文本。毫无疑问，您将丢失格式，但如果您想要进行文本索引或类似的操作，那么格式无论如何都是不相关的。订单被保留。

我没有分析Excel和Powerpoint，但方法应该是相似的。 Excel 可能会比较棘手，具体取决于单元格在 XML 文件中的存储方式。

回复收藏 0 原文

你又不是我 2024-08-18 21:35:08

Apache POI 库可以从 Office 格式中提取文本。这是 Lucene 中的 Tika 使用的。 Tika 可以作为命令行工具执行：

curl http://.../document.doc \
  | java -jar tika-app-x.y.jar --text \
  | grep -q keyword

The Apache POI library can extract text from office formats. This is used by Tika in Lucene. Tika can be executed as a command line tool:

curl http://.../document.doc \
  | java -jar tika-app-x.y.jar --text \
  | grep -q keyword

回复收藏 0 原文

时光是把杀猪刀 2024-08-18 21:35:08

PyODConverter 用于自动化 OpenOffice。用它来进行转换。
OONinja 示例将 Doc 转换为 PDF但任何 OpenOffice 支持的导入或导出都应该可以工作。如果需要的话，还具有无头工作的优点。

其他选项包括，
Abiword
或者你真的只是想处理命令行 WvWare 但我不认为它支持 Docx，

回复收藏 0 原文

与之呼应 2024-08-18 21:35:08

您可以通过适当的许可证在您的应用程序中使用 Autonomy Keyview。它看起来非常强大，几乎可以从所有东西中提取文本；我们用它来识别任意格式文件中的文本。

我不知道许可条款是什么，但可以从您的客户经理那里获取:)

回复收藏 0 原文

~没有更多了~

关于作者

听不够的曲调

暂无简介

0 文章

0 评论

22 人气

关注发私信

友情链接

文江博客

将 Microsoft Office 文档转换为文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

将 Microsoft Office 文档转换为文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。