如何使用Apache POI提取word文档的格式信息?
我正在使用 Apache POI 从 MS Word 文件中提取格式信息。
我想提取信息,例如段落是否有项目符号、背景颜色、前景色、对齐方式等。
对此没有太多文档或教程。 Javadoc 也不包含太多有用的信息。
我在哪里可以获得可以帮助我学习 Apache POI API 的教程/好的文档?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
对于 HWPF (.doc),您可能需要的类是:
根据您想要的具体属性,它可能位于段落或字符属性上。
我能想到的使用 HWPF 读取 Word 文档并获取文本、检查样式和格式等的最佳示例是 Apache Tika 的 WordExtractor:
https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java
(XWPF对于 .docx 是类似的)
For HWPF (.doc), the classes you probably want are:
Depending on the exact property you want, it may be on the paragraph or the character properties.
The best example I can think of for reading a word document with HWPF and getting text, checking styles and formatting etc is WordExtractor from Apache Tika:
https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java
(XWPF for .docx is similar)