如何使用Apache POI提取word文档的格式信息?

发布于 2024-10-27 08:56:41 字数 178 浏览 2 评论 0 原文

我正在使用 Apache POI 从 MS Word 文件中提取格式信息。

我想提取信息,例如段落是否有项目符号、背景颜色、前景色、对齐方式等。

对此没有太多文档或教程。 Javadoc 也不包含太多有用的信息。

我在哪里可以获得可以帮助我学习 Apache POI API 的教程/好的文档?

I am using Apache POI for extracting formatting information from MS word files.

I want to extract information like whether paragraph is having bullet, background color, forecolor, alignment, etc.

There is not much documentation or tutorials available for this. Javadoc also does not contain much helpful information.

Where can I get tutorials/good documentation which can help me in learning Apache POI API??

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

一身骄傲 2024-11-03 08:56:41

对于 HWPF (.doc),您可能需要的类是:

根据您想要的具体属性,它可能位于段落或字符属性上。

我能想到的使用 HWPF 读取 Word 文档并获取文本、检查样式和格式等的最佳示例是 Apache Tika 的 WordExtractor:
https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java

(XWPF对于 .docx 是类似的)

For HWPF (.doc), the classes you probably want are:

Depending on the exact property you want, it may be on the paragraph or the character properties.

The best example I can think of for reading a word document with HWPF and getting text, checking styles and formatting etc is WordExtractor from Apache Tika:
https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java

(XWPF for .docx is similar)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文