Java中将Word文档转为HTML的方法?

发布于 2022-09-01 22:32:31 字数 226 浏览 22 评论 0

需求:
输入Word文档(主要是doc,如果支持docx更好),输出HTML格式的字符串。并且能保证字体、颜色、文字和段落格式、图片、表格等不变。

在网上搜到的资料中,大部分人推荐POI。POI我也试过了,但是感觉功能比较弱,很多格式在转换过程中丢掉了。一般只能用它来获取文档中所有的文字。当然可能是我使用方法不对?

不知道大家是否有这方面的经验,自己写的、开源的、收费的都可以。希望大家给推荐一个。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

夜光 2022-09-08 22:32:31

Spire.Doc for Java能够满足你提到的需求,在Word转换Html后保证文本格式不会发生变化。有免费版和商业版,免费版对加载文档页数会有限制,商业版不会有任何功能限制。建议使用商业版。下方转换代码供参考:

import com.spire.doc.*;
public class toHtml {
    public static void main(String[] args) {
        
        //加载示例文档
 Document document = new Document();
        document.loadFromFile("C:UsersTest1DesktopSample.docx");
        //保存为HTML格式
 document.saveToFile("output/toHtml.html", FileFormat.Html);
    }
}
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文