Ghostscript 未从 PDF 文件中提取所有文本

发布于 2024-09-17 00:48:52 字数 474 浏览 6 评论 0原文

我正在使用 Ghostscript 8.71 从 PDF 页面中提取文本。

我正在使用的命令是:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

我正在使用 将文本定向到另一个文件。

但问题是 Ghostscript 无法提取一些可搜索的文本项。

某些字体文本不会被提取,例如:粗体字符的 Verdana。但 Ghostscript 正在打开字体文件。

我可以上传 PDF 文件,但在这里我没有找到任何上传选项。如果有任何可用选项请告诉我。

I am using ghostscript 8.71 to extract text from the PDF pages.

The command I am using is:

gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
         -dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1  \
         -dLastPage=1 input.pdf -dQUIET

And I am using <stdout> to direct the text to another file.

But the problem is some searchable text items are not extracted by Ghostscript.

Some font text is not extracted, for example: Verdana in bold characters. But Ghostscript is opening the font files.

I can upload the PDF file but here I didn't find any upload option. If any option is available let me know.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

酷炫老祖宗 2024-09-24 00:48:52

您是否还尝试过其他命令行工具来提取文本,例如 pdftotext来自 XPDF 包?这些如何比较?

您能否提供有关输出中到底缺少什么内容的更多详细信息?只是某些类型的字符,只是某些字体,只是某些页面?

此外,您还将 Linux/Unix 语法 ("gs") 与 Windows 语法 ("c:\fonts") 混合在一起。在 Windows 系统上,托管字体的默认位置通常是 c:\Windows\fonts ...

哦,是的:查看有问题的 PDF 文件会绝对有帮助。

Did you also try alternative commandline tools to extract the text, such as pdftotext from the XPDF package? How do these compare?

Can you give more details about what exactly is missing in your output? Just certain types of characters, just certain fonts, just certain pages?

Also, you are mixing Linux/Unix syntax ("gs") with Windows syntax ("c:\fonts"). On Windows systems, the default location where fonts are hosted usually is c:\Windows\fonts ...

Oh, and yes: having your problematic PDF file to look at would definitely help.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文