使用 pdfcreator 处理 pdf 等图像数据或其他内容
干草所有。 也许你们可以帮助我完成我的项目。 我使用 pdfcreator 作为虚拟打印机来将一些图像打印到文件中。 可以是pdf,也可以是任何类型的图像。但我需要从中提取数据。 可以吗?我正在使用 C#。
hay all.
maybe you guys can help me in my project.
im using pdfcreator as a virtual printer to print to a file some images.
can be pdf can be any type of image. but i need to extract data from it.
can it be done? im using C#.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您无法从图像中提取文本。
原则上,您可以从 PDF 中提取文本。
以下是使用免费软件命令行实用程序的两种方法;也许其中一个适合您的需求:
pdftotext.exe
(<的一部分strong>Foolabs 的 XPDF 实用程序)gswin32c.exe
(Artifex' Ghostscript)从第 3-7 页提取所有文本的示例命令行:
pdftotext:
您希望将文本输出到 stdout 而不是文件?好的,试试这个:
Ghostscript:
(检查您的安装的 lib 子目录中是否有
ps2ascii.ps
)文本输出将出现在 stdout 上。如果您在 cmd.exe 窗口中对此进行测试,则可以通过附加
> 将其重定向到文件。 /path/to/output.txt
到命令。You cannot extract text from images.
In principle, you can extract text from PDFs.
Here are two methods using Free software commandline utilities; maybe one of them fits your needs:
pdftotext.exe
(part of Foolabs' XPDF utilities)gswin32c.exe
(Artifex' Ghostscript)Example commandlines to extract all text from pages 3-7:
pdftotext:
You want to get the text output to stdout instead of a file? OK, try this:
Ghostscript:
(Check that your installation has
ps2ascii.ps
in its lib subdirectory)Text output will appear on stdout. If you test this in a cmd.exe window, you can redirect this to a file by appending
> /path/to/output.txt
to the command.