当前位置：文江博客话题详情

处理 Word 文档的最佳方法

发布于 2024-10-04 02:11:32 字数 1539 浏览 0 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

如果没结果 2024-10-11 02:11:32

查看 python-docx 库。

回复收藏 0 原文

窗影残 2024-10-11 02:11:32

所以我认为您是说文档的结构是在格式中编码的，并且您想要生成捕获该结构的 XML 文件，同时将内容保留为纯文本？

如果是这样，您将需要解析文档，并构建一个可以处理的数据结构，然后转储为 XML。

对于解析，有几个选项。 Microsoft 已发布其二进制 .doc 格式的规范，阅读这对于为其编写解析器至关重要。对于 .docx，您比较幸运，因为它已经是 XML 格式，因此您可以使用任何 XML 解析库来读取该文件，然后在结果树中搜索您感兴趣的数据。解析器几乎适用于任何语言，我想到的一种易于使用的解析器是 MiniDom Python。

为了生成输出 XML，XML 库的对象表示似乎是一种可行的方法，例如 MiniDom 也可以这样做。

如果您不想编写自己的 .doc 解析器，您可以通过转换器运行文档，首先生成更易于访问的格式 - 例如使用 Word 本身将 .doc 文件转换为 .docx，或者使用工具从 .docs 生成 RDF，或者您可以使用现有的单词解析器，例如 OpenOffice 中的解析器。

回复收藏 0 原文

紫轩蝶泪 2024-10-11 02:11:32

在 VBA 中使用非常低效的条件搜索将文档逐字复制到第二个文档中。然后使用 .xml 扩展名保存第二个文档。任务完成了，但是很丑。

回复收藏 0 原文

烟雨扶苏 2024-10-11 02:11:32

您还可以尝试基于 Java 的 Apache POI - HWPF。它支持文本提取。然后，您必须创建自己的 XML 文档，Caster XML 或 Xstream 可以帮助您解决这个问题。

回复收藏 0 原文

幸福丶如此 2024-10-11 02:11:32

这实际上取决于您想要做什么。

最简单的方法是将文档另存为 Flat OPC XML（在 Word 中，“另存为...”XML），然后应用 XSLT。

这种方法最简单，因为它将整个 docx 作为单个 XML 文件提供，因此您不必解压缩它等。

如果您的要求更复杂，例如，分析格式或样式，或者使用超链接执行某些操作，那么诸如 docx4j (Java) 或 Open XML SDK (C#) 之类的对象模型（毫无疑问还有其他模型）可能会有所帮助。

回复收藏 0 原文

~没有更多了~

关于作者

自在安然

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

处理 Word 文档的最佳方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

花开柳相依

zyhello

故友

对风讲故事

Oo萌小芽oO

梦明

友情链接

处理 Word 文档的最佳方法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

花开柳相依

zyhello

故友

对风讲故事

Oo萌小芽oO

梦明

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。