使用 pdfcreator 处理 pdf 等图像数据或其他内容

发布于 2024-09-17 21:46:02 字数 111 浏览 14 评论 0原文

干草所有。 也许你们可以帮助我完成我的项目。 我使用 pdfcreator 作为虚拟打印机来将一些图像打印到文件中。 可以是pdf,也可以是任何类型的图像。但我需要从中提取数据。 可以吗?我正在使用 C#。

hay all.
maybe you guys can help me in my project.
im using pdfcreator as a virtual printer to print to a file some images.
can be pdf can be any type of image. but i need to extract data from it.
can it be done? im using C#.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

嗳卜坏 2024-09-24 21:46:02

您无法从图像中提取文本。

原则上,您可以从 PDF 中提取文本。

以下是使用免费软件命令行实用程序的两种方法;也许其中一个适合您的需求:

  1. pdftotext.exe<的一部分strong>Foolabs 的 XPDF 实用程序)
  2. gswin32c.exe (Artifex' Ghostscript

从第 3-7 页提取所有文本的示例命令行:

pdftotext:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

您希望将文本输出到 stdout 而不是文件?好的,试试这个:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript:
(检查您的安装的 lib 子目录中是否有 ps2ascii.ps

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET 

文本输出将出现在 stdout 上。如果您在 cmd.exe 窗口中对此进行测试,则可以通过附加 > 将其重定向到文件。 /path/to/output.txt 到命令。

You cannot extract text from images.

In principle, you can extract text from PDFs.

Here are two methods using Free software commandline utilities; maybe one of them fits your needs:

  1. pdftotext.exe (part of Foolabs' XPDF utilities)
  2. gswin32c.exe (Artifex' Ghostscript)

Example commandlines to extract all text from pages 3-7:

pdftotext:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   "d:\path\to\output.txt"

You want to get the text output to stdout instead of a file? OK, try this:

pdftotext.exe ^
   -f 3 ^
   -l 7 ^
   -epl dos ^
   -layout ^
   "d:\path with spaces\to\input.pdf" ^
   -

Ghostscript:
(Check that your installation has ps2ascii.ps in its lib subdirectory)

gswin32c.exe ^
   -q ^
   -sFONTPATH=c:/windows/fonts ^
   -dNODISPLAY ^
   -dSAFER ^
   -dDELAYBIND ^
   -dWRITESYSTEMDICT ^
   -dSIMPLE ^
   -f ps2ascii.ps ^
   -dFirstPage=3 ^
   -dLastPage=7 ^
   "c:/path/to/input.pdf" ^
   -dQUIET 

Text output will appear on stdout. If you test this in a cmd.exe window, you can redirect this to a file by appending > /path/to/output.txt to the command.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文