从 pdf 中提取单词坐标的库/工具

发布于 2024-10-06 09:50:22 字数 177 浏览 7 评论 0原文

我正在寻找一个(最好是Java)库或命令行工具来从pdf中提取单词坐标。输入 pdf 包含文本或图像,后面带有 ocr 文本。

我的用例:
在 Java Web 应用程序中,我想使用它来突出显示并显示它,而无需其他软件(例如 Adob​​e Reader 等)。相反,我想将匹配的页面转换为图像并将它们呈现在网页中。

I am looking for a (preferably Java-) library or a command line tool to extract word coordinates from pdfs. The input-pdfs contain either text or images with ocr-text in behind.

My Use Case:
In a Java web-application I would like to use this to do hit highlighting and present this without additional software (e.g. Adobe Reader etc.). Instead I want to convert the the matching pages into images and present them within a web page.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

萌能量女王 2024-10-13 09:50:22

您应该能够使用 http://pdfbox.apache.org/ 进行突出显示并将其呈现为pdf本身。另请参阅 http://itextpdf.com/

You should be able to use http://pdfbox.apache.org/ to do the highlighting and present them as pdf itself. Also look at http://itextpdf.com/.

为你拒绝所有暧昧 2024-10-13 09:50:22

您可以使用 JPedal 生成缩略图 (http://www.jpedal.org/pdf_thumbnail_tutorials.php) 并提取文本 (http://www.jpedal.org/support_egETAW.php)

You can use JPedal to generate the thumbnails (http://www.jpedal.org/pdf_thumbnail_tutorials.php) and extract the text (http://www.jpedal.org/support_egETAW.php)

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文