使用 Foxit SDK 提取 pdf 文本

发布于 2024-12-29 12:35:11 字数 182 浏览 1 评论 0原文

我正在使用 Foxit SDK 从 Pdf 文档中提取文本。

一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。

我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox更好。

还有其他库可以解决这个问题吗? 或者还有其他解决方案。

I am using Foxit SDK to extract the text from Pdf document .

Everything is okay but when I extract a pdf in other languages rather than English I don't get the correct output .

I have also used PDFBox in java but that gives me the worst output, output from Foxit SDK is better than PDFBox.

Are there ant other libraries which can solve the issue..?
Or there is some other solution.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

○愚か者の日 2025-01-05 12:35:11

就个人而言,如果你想把事情做好,你就必须付出代价。 ComponentOne 有一个用于 WPF 的 PDFViewer。不确定您使用的是哪个框架,因为您的标签缺少一个。

适用于 WPF 的 ComponentOne PDF 查看器

Personally if you want it done right you have to pay for it. ComponentOne has a PDFViewer for WPF. Not sure what framework your working with since your tag is missing one.

ComponentOne PDF Viewer for WPF

一梦浮鱼 2025-01-05 12:35:11

您可能想尝试 Quick PDF Library 的试用版,看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com

QP.GetPageText(7) 或 GetPageText(8) 返回非常好的结果大多数 PDF 文件。

安德鲁.

免责声明:我为 Quick PDF Library 做了一些咨询工作。

You might want to try the trial version of Quick PDF Library to see how it performs on your documents. http://www.quickpdflibrary.com

QP.GetPageText(7) or GetPageText(8) returns pretty good results for most PDF files.

Andrew.

Disclaimer: I do some consulting work for Quick PDF Library.

暖伴 2025-01-05 12:35:11

如果你在windows上,你可以使用adobe提供的IFilter。我,我使用 adobe 随 adobe reader 8 提供的 IFilter。
这是我使用的确切示例的链接

http://www.codeproject .com/Articles/13391/Using-IFilter-in-C

性能还可以(我认为。我没有使用很多其他方法)。 400 页的 PDF 大约需要 15 秒。

If you are on windows, you can use the IFilter that adobe provides. Me, I used the IFilter adobe provides with the adobe reader 8.
Here is a link to the exact example I used

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

The performance was okay (I think. I haven't used many other methods). Takes about 15 sec for a 400 page PDF.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文