将 PDF 的内容打印到命令行
我正在寻找一个可以打印 PDF 文件文本的命令行程序,就像打印文本文件的 cat
一样。
我找到了 pdftotxt
,这是可行的,但我更喜欢复制 cat
功能的东西,因为我想通过管道传输到 grep
。谢谢!
I'm looking for a command-line program that will print out the text of a PDF file, just like cat
for a text file.
I've found pdftotxt
, and that would be workable, but I'd prefer something that replicates the cat
functionality because I want to pipe to grep
. Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
在
pdftotext
的手册页上,我发现了这一点:因此,要输出到
stdout
以便通过管道传输到grep
,请使用此命令:On the man pages for
pdftotext
, I found this:Thus to output to
stdout
in order to pipe togrep
use this:也许你可以尝试这个: https://github.com/luochen1990/nodejs-easy- pdf-parser
它是一个npm包,你需要安装nodejs(和npm)才能使用它。
它可以用作命令行工具:
并且该工具将按 y 坐标对文本行进行排序,因此在大多数情况下效果很好。而且它也适用于 unicode 和跨平台(作为比较:mingw64 的
pdftotext
在 Windows 上会丢失 unicode 字符)。Maybe you can try this: https://github.com/luochen1990/nodejs-easy-pdf-parser
It is a npm package and you need to install nodejs (and npm) to use it.
It can be used as a command line tool:
And this tool will sort text lines by their y coordinates, so it works great at most case. And it also works well with unicode and cross platform (as comparison: mingw64's
pdftotext
will lose unicode characters on windows).