如何从 PDF 中提取嵌入的 OCR 数据?
我有嵌入 OCR 数据的 PDF 文件。 (所以我已经 orcd 它们了)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器中。为此,我需要纯 OCR 数据。 所以我的问题是,是否可以从 pdf 文件中提取嵌入的 OCR 数据? 如果能得到带有坐标的文件就好了。但获取纯文本文件也足够了。
I have PDF-files with embedded OCR data. (So I already orcd them) So they are searchable. Now I want to extract this OCR data, because I want to put in in my tomcat6 searchserver. For doing this, I need the plain OCR data.
So my question is, is it possible to extract this embedded OCR-Data from the pdf Files?
It would be nice to get files with coordinates. But it would also be sufficient to get plaintext files.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您应该能够使用 iText 或 iTextsharp 来完成此操作。然而,iTextsharp 的文档为 0,并且很多功能与 iText 中的功能并不相同。
PDFSharp 不支持 iref 流。这些几乎是唯一全面的开源解决方案。如果您不介意付费,vista 解决方案可能适合您,它们主要处理工作流程,但它们也有一些相当广泛的 pdf 库。
You should be able to do this with iText or iTextsharp. iTextsharp has 0 documentation however, and a good number of the functions are not equivalent to those found in iText.
PDFSharp does not support iref streams. Those are pretty much the only comprehensive opensource solutions. If you do not mind paying, vista solutions may have something for you, they mostly handle workflow, but they have some pretty extensive pdf libraries as well.