Ghostscript 未从 PDF 文件中提取所有文本
我正在使用 Ghostscript 8.71 从 PDF 页面中提取文本。
我正在使用的命令是:
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
我正在使用
将文本定向到另一个文件。
但问题是 Ghostscript 无法提取一些可搜索的文本项。
某些字体文本不会被提取,例如:粗体字符的 Verdana。但 Ghostscript 正在打开字体文件。
我可以上传 PDF 文件,但在这里我没有找到任何上传选项。如果有任何可用选项请告诉我。
I am using ghostscript 8.71 to extract text from the PDF pages.
The command I am using is:
gswin32c -q -sFONTPATH=c:\\fonts -dNODISPLAY -dSAFER -dDELAYBIND \
-dWRITESYSTEMDICT -dSIMPLE -fps2ascii.ps -dFirstPage=1 \
-dLastPage=1 input.pdf -dQUIET
And I am using <stdout>
to direct the text to another file.
But the problem is some searchable text items are not extracted by Ghostscript.
Some font text is not extracted, for example: Verdana in bold characters. But Ghostscript is opening the font files.
I can upload the PDF file but here I didn't find any upload option. If any option is available let me know.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您是否还尝试过其他命令行工具来提取文本,例如
pdftotext
来自 XPDF 包?这些如何比较?您能否提供有关输出中到底缺少什么内容的更多详细信息?只是某些类型的字符,只是某些字体,只是某些页面?
此外,您还将 Linux/Unix 语法 (
"gs"
) 与 Windows 语法 ("c:\fonts"
) 混合在一起。在 Windows 系统上,托管字体的默认位置通常是 c:\Windows\fonts ...哦,是的:查看有问题的 PDF 文件会绝对有帮助。
Did you also try alternative commandline tools to extract the text, such as
pdftotext
from the XPDF package? How do these compare?Can you give more details about what exactly is missing in your output? Just certain types of characters, just certain fonts, just certain pages?
Also, you are mixing Linux/Unix syntax (
"gs"
) with Windows syntax ("c:\fonts"
). On Windows systems, the default location where fonts are hosted usually is c:\Windows\fonts ...Oh, and yes: having your problematic PDF file to look at would definitely help.