求助:java在处理pdf转txt中软性换行符去除问题!

发布于 2021-11-26 10:16:18 字数 187 浏览 848 评论 9

我程序中选用pdfbox抽取txt,但是它把所以软性换行符变成了硬性换行符,导致文本显示很难看;

求大神指教:pdfbox有没有什么设置可解决这个问题,我希望再抽取txt时只保留硬性换行符,这样一个段落在txt中就是一行显示。

或者大神指教:有没有其它什么解析工具可以做到这样的,指点下!

jpedal,itext我都试过了好像都不好用!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(9

平定天下 2021-11-30 15:14:37

没有呢

琴流音 2021-11-30 15:14:06

回复
那你后来就直接用tika处理的吗?

叹沉浮 2021-11-30 15:13:56

是用了,再后来我跳槽了,问题交给下一棒了

醉生梦死 2021-11-30 15:12:43

软换行的问题解决了吗?

归途 2021-11-30 15:09:44

tika是什么?

输什么也不输骨气 2021-11-30 14:42:17

很感谢,tika内部集成的是pdfbox!软性换行符还是没有解决,不过这个工具包到时挺好用的;

狠疯拽 2021-11-30 12:28:34

回复
tika立面集成了很多东西,excel,world,pdf等等都可以处理

筱武穆 2021-11-30 10:10:20

回复
多谢,可我提的问题还是没有解决啊,我要去掉不必要的换行符; 在tika里面是怎么设置软性换行符-硬性换行符的呢?可以说的明白点吗

不再见 2021-11-28 21:39:13

tika?试一下好像有这个功能

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文