如何提取 Apache FOP 用 C# 创建的 PDF?
我的 c# 项目有问题。 我想以编程方式提取 Apache FOP 生成的 PDF 文件,而不需要任何第 3 方应用程序。 我尝试使用许多库如PDFBox、IKVM、PDF2Text、ITextSharp、PDFSharp来提取PDF文件,但失败了。 当我将 FOP 生成的 PDF 提取到文本文件时,我得到很多方形符号和其他纠缠的字符。
我的问题是,如何在 C# 中提取 FOP 生成的 PDF 文件? 有没有任何库(用 C# 编写)可以做到这一点?
谢谢。
I have a problem in my c# project.
I want to extract Apache FOP generated PDF files programatically without any 3rd party application.
I tried to use many libary like PDFBox, IKVM, PDF2Text, ITextSharp, PDFSharp to extract PDF files, but failed.
When i extract a FOP generated PDF to a text file, i get a lots of square symbols and other entangled characters.
My question is, how can i extract a FOP generated PDF file in C#?
Is there any library (written to C#), which can do that?
Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用 Identity-H 编码的字体直接使用字形索引来在页面上显示文本。这些字体需要字体字典(PDF 文件中)中有 ToUnicode 条目才能支持文本提取,否则无法进行。检查 Apache FOP 以查看它是否具有在字体字典中包含 ToUnicode 条目或使字体提取友好的设置。
Fonts using Identity-H encoding use directly the glyph indexes for displaying the text on the page. These fonts require a ToUnicode entry in the font dictionary (in the PDF file) in order to support text extraction, otherwise it is not possible. Check the Apache FOP to see if it has a setting for including a ToUnicode entry in the font dictionary or for making the font extraction friendly.