Pdf解析,如何解压缩文本
您好,我正在尝试解析 pdf 文件,我能够从 pdf 中提取文本,但是如果 pdf 被压缩(使用 flatedecode),我会得到垃圾字符,因此需要知道如何解压缩文本,以及如何知道使用的过滤器?
Hi am trying to parse a pdf file, am able to extract the Text from pdf, but if the pdf is compressed (using flatedecode), i get junk characters so needed to know how to decompress the text, also how to know the filter used?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
如果使用 c++ 工作,则可以使用 zlib 库对页面内容流的字节进行解压缩。
You can use zlib library if working in c++ to do decompression of the bytes for the content stream of a page.