当前位置：文江博客话题详情

如何使用 PHP 中的 LiveDocx 来读取 .doc 和 .doc 文件？ .docx 文件并读取其中的文本并保存为 HTML？

发布于 2024-10-06 20:11:00 字数 170 浏览 5 评论 0原文

假设我们有一个 .doc & .docx 文件。我想在 PHP 中使用 LiveDocx 来加载文件，读取其内容并从其中删除文本。然后将其保存为 HTML 字符串。

这可以做到吗？

我搜索了文档，发现 LiveDocx 只加载 .doc 和 .doc 文件。仅限 .docx 模板文件！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

猫弦 2024-10-13 20:11:00

您可以使用外部库进行保存，并简单地从文件中的 XML 中获取文本：
http://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php

回复收藏 0 原文

楠木可依 2024-10-13 20:11:00

我认为您可以在这个例子。

我可能是错的，但我认为他们称它们为“模板”文件，因为它们的行为类似于模板，但仍然是普通的 .doc/.docx 文档。我建议您尝试运行该示例。

回复收藏 0 原文

还不是爱你 2024-10-13 20:11:00

我认为您可以使用 TextControl 来改进 phpLiveDocx TextControl 链接

使用它您还可以导入 pdf doc 和 docx

回复收藏 0 原文

韵柒 2024-10-13 20:11:00

当您在 LiveDocX 上进行文档转换时，您需要进行邮件合并，然后检索文档。即使您没有插入任何新内容，您也需要执行邮件合并，用虚拟内容替换虚拟占位符。

因此，我建议的过程是：

1）将源文档设置为本地模板
2) 将虚拟字段与虚拟内容合并
3) 以 HTML 格式检索文档
4）使用脚本服务器端删除html并仅保留内容（例如，删除HEAD标记之间的所有内容，然后在其余部分上删除strip_tags）
5）您应该将内容保留为一个简单的字符串 - 我不确定它是否太有意义，但可能对于构建搜索索引之类的内容很有用。