如何从 PDF 中提取嵌入的 OCR 数据?

发布于 2024-10-19 22:48:17 字数 174 浏览 5 评论 0原文

我有嵌入 OCR 数据的 PDF 文件。 (所以我已经 orcd 它们了)所以它们是可搜索的。现在我想提取这个 OCR 数据,因为我想放入我的 tomcat6 搜索服务器中。为此,我需要纯 OCR 数据。 所以我的问题是,是否可以从 pdf 文件中提取嵌入的 OCR 数据? 如果能得到带有坐标的文件就好了。但获取纯文本文件也足够了。

I have PDF-files with embedded OCR data. (So I already orcd them) So they are searchable. Now I want to extract this OCR data, because I want to put in in my tomcat6 searchserver. For doing this, I need the plain OCR data.
So my question is, is it possible to extract this embedded OCR-Data from the pdf Files?
It would be nice to get files with coordinates. But it would also be sufficient to get plaintext files.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

心安伴我暖 2024-10-26 22:48:17

您应该能够使用 iText 或 iTextsharp 来完成此操作。然而,iTextsharp 的文档为 0,并且很多功能与 iText 中的功能并不相同。

PDFSharp 不支持 iref 流。这些几乎是唯一全面的开源解决方案。如果您不介意付费,vista 解决方案可能适合您,它们主要处理工作流程,但它们也有一些相当广泛的 pdf 库。

You should be able to do this with iText or iTextsharp. iTextsharp has 0 documentation however, and a good number of the functions are not equivalent to those found in iText.

PDFSharp does not support iref streams. Those are pretty much the only comprehensive opensource solutions. If you do not mind paying, vista solutions may have something for you, they mostly handle workflow, but they have some pretty extensive pdf libraries as well.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文