阅读文本 +现有 pdf 中的图形(如线条)信息
我想阅读现有的 pdf 和提取文本和图形信息。在图形中,目前我只需要绘制线条。有许多供应商组件可用于阅读 PDF 文本,但是否也可以提供图形信息?虽然免费/开源是首选,但我也可以接受商业的。
要求是:
对于 PDF 中的每个页面:
读取文本块
了解文本块(包含该块的矩形)的画布坐标。请注意,对于较大字体大小的文本,矩形大小将会改变。
行 - 需要为 pdf 中页面中的每一行收集 (x1,y1,x2,y2)
, - 探索者
I want to read an existing pdf & extract the text and graphics information. Within graphics, currently i just need the drawn lines. There are many vendor component for reading PDF text, but are there ones that can give graphics info too ? Though free/open-source is preferred, I'm ok to commercial ones too.
The requirement is:
For every page in PDF:
Reading text blocks
Getting to know the canvas co-ordinate of the text block (rectangle containing the block). Note, for text with higher font size, the rect size will change.
Lines - need collection of (x1,y1,x2,y2) for every line in a page in pdf
Thanks,
- Seeker
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这是我的领域,尽管问题有点老了。希望这仍然有帮助。
您留有一些假设空间,所以这是我的:
您的对象是存档
您正在运行命令行脚本:
使用此命令行脚本,详细信息位于: http://stefaanlippens.net/extract-images-来自-pdf-文档
您正在使用 imagemagick 或graphicsmagick 函数运行服务器端代码:
像“convert -background white -flatten test1.pdf test1.jpg”(imagemagick)这样的东西会将整个PDF页面渲染为jpeg。如果您想将其裁剪为图像,则需要根据项目的上下文来确定执行此操作的最佳脚本。
一个相当复杂的问题。如果您想提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。
This is my field, though the question is a bit old. Hopefully this still helps.
You leave some room for assumptions, so here are mine:
your object is archival
you are running command-line scripts:
Use this command line script, detailed at: http://stefaanlippens.net/extract-images-from-pdf-documents
you are running server-side code using imagemagick or graphicsmagick functions:
Something like "convert -background white -flatten test1.pdf test1.jpg" (imagemagick) will render the whole PDF page into a jpeg. If you want to then crop it to the image(s), then it depends upon the context of the project to determine the best script(s) to do that.
A rather complex question. If you wish to provide more details about the project, then I can provide some more guidance. Best of luck.