阅读文本 +现有 pdf 中的图形(如线条)信息

发布于 2024-10-20 22:02:43 字数 306 浏览 4 评论 0原文

我想阅读现有的 pdf 和提取文本和图形信息。在图形中,目前我只需要绘制线条。有许多供应商组件可用于阅读 PDF 文本,但是否也可以提供图形信息?虽然免费/开源是首选,但我也可以接受商业的。

要求是:

对于 PDF 中的每个页面:

  1. 读取文本块

  2. 了解文本块(包含该块的矩形)的画布坐标。请注意,对于较大字体大小的文本,矩形大小将会改变。

  3. 行 - 需要为 pdf 中页面中的每一行收集 (x1,y1,x2,y2)

, - 探索者

I want to read an existing pdf & extract the text and graphics information. Within graphics, currently i just need the drawn lines. There are many vendor component for reading PDF text, but are there ones that can give graphics info too ? Though free/open-source is preferred, I'm ok to commercial ones too.

The requirement is:

For every page in PDF:

  1. Reading text blocks

  2. Getting to know the canvas co-ordinate of the text block (rectangle containing the block). Note, for text with higher font size, the rect size will change.

  3. Lines - need collection of (x1,y1,x2,y2) for every line in a page in pdf

Thanks,
- Seeker

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

辞别 2024-10-27 22:02:43

这是我的领域,尽管问题有点老了。希望这仍然有帮助。

您留有一些假设空间,所以这是我的:

  • 您寻求脚本,而不是独立软件
  • 您的对象是存档

    1. 您正在运行命令行脚本:
      使用此命令行脚本,详细信息位于: http://stefaanlippens.net/extract-images-来自-pdf-文档

    2. 您正在使用 imagemagick 或graphicsmagick 函数运行服务器端代码:
      像“convert -background white -flatten test1.pdf test1.jpg”(imagemagick)这样的东西会将整个PDF页面渲染为jpeg。如果您想将其裁剪为图像,则需要根据项目的上下文来确定执行此操作的最佳脚本。

一个相当复杂的问题。如果您想提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。

This is my field, though the question is a bit old. Hopefully this still helps.

You leave some room for assumptions, so here are mine:

  • you seek a script, rather than stand-alone software
  • your object is archival

    1. you are running command-line scripts:
      Use this command line script, detailed at: http://stefaanlippens.net/extract-images-from-pdf-documents

    2. you are running server-side code using imagemagick or graphicsmagick functions:
      Something like "convert -background white -flatten test1.pdf test1.jpg" (imagemagick) will render the whole PDF page into a jpeg. If you want to then crop it to the image(s), then it depends upon the context of the project to determine the best script(s) to do that.

A rather complex question. If you wish to provide more details about the project, then I can provide some more guidance. Best of luck.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文