使用 Java 将 Microsoft Word 文档读取为纯文本(DOC、DOCX)
我正在寻找 Java 中的东西来读取 Word 文档以处理其文本。我所需要的只是文本,没有什么花哨的。我了解 Apache POI,但它现在不包括对 DOCX 的支持,有什么吗?
I'm looking for something in Java to read in Word documents to process their text.. all I need is there text, nothing fancy. I know about Apache POI, however it doesn't include support for DOCX right now, anything out there?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
如果您不需要格式化信息、图像和所有其他花哨的东西,那么这项工作就会容易得多。只需 5 到 10 行代码即可。
仅当您仅需要文本时才适用。
If you don't require formatting information, images and all other fancy stuff, then the job is lot easier. Just some 5 to 10 lines of code will do.
This is applicable only if you need the text only.
通过谷歌搜索,我发现了 OpenXML4J。这可能会解决您的问题。在我确信社区中的某个人会有更好的见解之前,我还没有使用过它。
注意:这是一个重复的问题。这有解决方案以及一些讨论。 问题链接。
With some googling I found OpenXML4J. This might solve your issue. I have not used this before I am sure someone in the community will have better insight.
Note: This is a duplicate question. This has the solution plus a bit of discussion. Link to the question.
尝试 apache poi - 它可以处理 doc、docx、xls、xlsx、ppt、pptx。
另一个生产级解决方案是无头模式下的 OpenOffice,它甚至可以在服务器端场景中使用。
Try apache poi - it can handle doc, docx, xls, xlsx, ppt, pptx.
Another production-level solution is OpenOffice in headless mode which can even be used in a server-side scenario.
你可以尝试 docx4j;请参阅 http://dev .plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java
You could try docx4j; see http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java