求助:java在处理pdf转txt中软性换行符去除问题!
我程序中选用pdfbox抽取txt,但是它把所以软性换行符变成了硬性换行符,导致文本显示很难看;
求大神指教:pdfbox有没有什么设置可解决这个问题,我希望再抽取txt时只保留硬性换行符,这样一个段落在txt中就是一行显示。
或者大神指教:有没有其它什么解析工具可以做到这样的,指点下!
jpedal,itext我都试过了好像都不好用!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(9)
没有呢
回复
那你后来就直接用tika处理的吗?
是用了,再后来我跳槽了,问题交给下一棒了
软换行的问题解决了吗?
tika是什么?
很感谢,tika内部集成的是pdfbox!软性换行符还是没有解决,不过这个工具包到时挺好用的;
回复
tika立面集成了很多东西,excel,world,pdf等等都可以处理
回复
多谢,可我提的问题还是没有解决啊,我要去掉不必要的换行符; 在tika里面是怎么设置软性换行符-硬性换行符的呢?可以说的明白点吗
tika?试一下好像有这个功能