将 PDF 的内容打印到命令行

发布于 2024-12-08 21:17:23 字数 169 浏览 1 评论 0原文

我正在寻找一个可以打印 PDF 文件文本的命令行程序,就像打印文本文件的 cat 一样。

我找到了 pdftotxt,这是可行的,但我更喜欢复制 cat 功能的东西,因为我想通过管道传输到 grep。谢谢!

I'm looking for a command-line program that will print out the text of a PDF file, just like cat for a text file.

I've found pdftotxt, and that would be workable, but I'd prefer something that replicates the cat functionality because I want to pipe to grep. Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

去了角落 2024-12-15 21:17:23

pdftotext 的手册页上,我发现了这一点:

pdftotext [选项] [PDF 文件 [文本文件]]

描述
Pdftotext 将可移植文档格式 (PDF) 文件转换为纯文本。

Pdftotext 读取 PDF 文件(PDF-file),并写入文本文件(text-file)。如果未指定 text-file,pdftotext 会将 file.pdf 转换为 file.txt。 如果文本文件为“-”,则文本将发送到标准输出。

因此,要输出到 stdout 以便通过管道传输到 grep,请使用此命令:

pdftotext mydoc.pdf - | grep mysearchterm

On the man pages for pdftotext, I found this:

pdftotext [options] [PDF-file [text-file]]

Description
Pdftotext converts Portable Document Format (PDF) files to plain text.

Pdftotext reads the PDF file, PDF-file, and writes a text file, text-file. If text-file is not specified, pdftotext converts file.pdf to file.txt. If text-file is '-', the text is sent to stdout.

Thus to output to stdout in order to pipe to grep use this:

pdftotext mydoc.pdf - | grep mysearchterm
与君绝 2024-12-15 21:17:23

也许你可以尝试这个: https://github.com/luochen1990/nodejs-easy- pdf-parser

它是一个npm包,你需要安装nodejs(和npm)才能使用它。

它可以用作命令行工具:

npm install -g easy-pdf-parser
pdf2text test.pdf > test.txt

并且该工具将按 y 坐标对文本行进行排序,因此在大多数情况下效果很好。而且它也适用于 unicode 和跨平台(作为比较:mingw64 的 pdftotext 在 Windows 上会丢失 unicode 字符)。

Maybe you can try this: https://github.com/luochen1990/nodejs-easy-pdf-parser

It is a npm package and you need to install nodejs (and npm) to use it.

It can be used as a command line tool:

npm install -g easy-pdf-parser
pdf2text test.pdf > test.txt

And this tool will sort text lines by their y coordinates, so it works great at most case. And it also works well with unicode and cross platform (as comparison: mingw64's pdftotext will lose unicode characters on windows).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文