如何使用 PHP 中的 LiveDocx 来读取 .doc 和 .doc 文件? .docx 文件并读取其中的文本并保存为 HTML?
假设我们有一个 .doc & .docx 文件。我想在 PHP 中使用 LiveDocx 来加载文件,读取其内容并从其中删除文本。然后将其保存为 HTML 字符串。
这可以做到吗?
我搜索了文档,发现 LiveDocx 只加载 .doc 和 .doc 文件。仅限 .docx 模板文件!
Let's say we have a .doc & .docx files. I want to use LiveDocx in PHP to load the files, read it's content and strip the text from inside it. Then save it to an HTML string.
Can this be done?
I've searched the documentation, and it seams that LiveDocx only loads .doc & .docx template files only!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
您可以使用外部库进行保存,并简单地从文件中的 XML 中获取文本:
http://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php
You can save using external libraries and simply grab the text from the XML within the files:
http://www.webcheatsheet.com/PHP/reading_the_clean_text_from_docx_odt.php
我认为您可以在 这个例子。
我可能是错的,但我认为他们称它们为“模板”文件,因为它们的行为类似于模板,但仍然是普通的 .doc/.docx 文档。我建议您尝试运行该示例。
I think you can find what you need in this example.
I might be wrong, but I think they call them "template" files because they act like a template but are still normal .doc/.docx documents. I suggest you simply try to run that example.
我认为您可以使用 TextControl 来改进 phpLiveDocx TextControl 链接
使用它您还可以导入 pdf doc 和 docx
I think you can use TextControl that improves phpLiveDocx TextControl link
Using this you can also import pdf doc and docx
当您在 LiveDocX 上进行文档转换时,您需要进行邮件合并,然后检索文档。即使您没有插入任何新内容,您也需要执行邮件合并,用虚拟内容替换虚拟占位符。
因此,我建议的过程是:
1)将源文档设置为本地模板
2) 将虚拟字段与虚拟内容合并
3) 以 HTML 格式检索文档
4)使用脚本服务器端删除html并仅保留内容(例如,删除HEAD标记之间的所有内容,然后在其余部分上删除strip_tags)
5)您应该将内容保留为一个简单的字符串 - 我不确定它是否太有意义,但可能对于构建搜索索引之类的内容很有用。
When you do document conversion on LiveDocX, you need to do a mailmerge and then retrieve the document. Even though you aren't inserting any new content, you need to do a mailmerge that replaces a dummy placeholder with dummy content.
So, the process I'd suggest is:
1) Set your source document as local template
2) Merge a dummy field with dummy content
3) Retrieve your document as HTML
4) Use a script server side to remove the html and leave only the content (Something like, remove everything between the HEAD tags, then strip_tags on the rest)
5) You should be left with your content as a simple string - I'm not sure it'll be too meaningful, but might be useful for building something like search indices.