使用 Foxit SDK 提取 pdf 文本
我正在使用 Foxit SDK 从 Pdf 文档中提取文本。
一切都很好,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。
我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox更好。
还有其他库可以解决这个问题吗? 或者还有其他解决方案。
I am using Foxit SDK to extract the text from Pdf document .
Everything is okay but when I extract a pdf in other languages rather than English I don't get the correct output .
I have also used PDFBox in java but that gives me the worst output, output from Foxit SDK is better than PDFBox.
Are there ant other libraries which can solve the issue..?
Or there is some other solution.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
就个人而言,如果你想把事情做好,你就必须付出代价。 ComponentOne 有一个用于 WPF 的 PDFViewer。不确定您使用的是哪个框架,因为您的标签缺少一个。
适用于 WPF 的 ComponentOne PDF 查看器
Personally if you want it done right you have to pay for it. ComponentOne has a PDFViewer for WPF. Not sure what framework your working with since your tag is missing one.
ComponentOne PDF Viewer for WPF
您可能想尝试 Quick PDF Library 的试用版,看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com
QP.GetPageText(7) 或 GetPageText(8) 返回非常好的结果大多数 PDF 文件。
安德鲁.
免责声明:我为 Quick PDF Library 做了一些咨询工作。
You might want to try the trial version of Quick PDF Library to see how it performs on your documents. http://www.quickpdflibrary.com
QP.GetPageText(7) or GetPageText(8) returns pretty good results for most PDF files.
Andrew.
Disclaimer: I do some consulting work for Quick PDF Library.
如果你在windows上,你可以使用adobe提供的IFilter。我,我使用 adobe 随 adobe reader 8 提供的 IFilter。
这是我使用的确切示例的链接
http://www.codeproject .com/Articles/13391/Using-IFilter-in-C
性能还可以(我认为。我没有使用很多其他方法)。 400 页的 PDF 大约需要 15 秒。
If you are on windows, you can use the IFilter that adobe provides. Me, I used the IFilter adobe provides with the adobe reader 8.
Here is a link to the exact example I used
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
The performance was okay (I think. I haven't used many other methods). Takes about 15 sec for a 400 page PDF.