如何提取 Apache FOP 用 C# 创建的 PDF?

发布于 2024-12-07 14:54:11 字数 253 浏览 1 评论 0原文

我的 c# 项目有问题。 我想以编程方式提取 Apache FOP 生成的 PDF 文件,而不需要任何第 3 方应用程序。 我尝试使用许多库如PDFBox、IKVM、PDF2Text、ITextSharp、PDFSharp来提取PDF文件,但失败了。 当我将 FOP 生成的 PDF 提取到文本文件时,我得到很多方形符号和其他纠缠的字符。

我的问题是,如何在 C# 中提取 FOP 生成的 PDF 文件? 有没有任何库(用 C# 编写)可以做到这一点?

谢谢。

I have a problem in my c# project.
I want to extract Apache FOP generated PDF files programatically without any 3rd party application.
I tried to use many libary like PDFBox, IKVM, PDF2Text, ITextSharp, PDFSharp to extract PDF files, but failed.
When i extract a FOP generated PDF to a text file, i get a lots of square symbols and other entangled characters.

My question is, how can i extract a FOP generated PDF file in C#?
Is there any library (written to C#), which can do that?

Thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

ぺ禁宫浮华殁 2024-12-14 14:54:11

使用 Identity-H 编码的字体直接使用字形索引来在页面上显示文本。这些字体需要字体字典(PDF 文件中)中有 ToUnicode 条目才能支持文本提取,否则无法进行。检查 Apache FOP 以查看它是否具有在字体字典中包含 ToUnicode 条目或使字体提取友好的设置。

Fonts using Identity-H encoding use directly the glyph indexes for displaying the text on the page. These fonts require a ToUnicode entry in the font dictionary (in the PDF file) in order to support text extraction, otherwise it is not possible. Check the Apache FOP to see if it has a setting for including a ToUnicode entry in the font dictionary or for making the font extraction friendly.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文