当前位置：文江博客文章教程详情

如何使用 pdfgrep 从终端搜索 PDF 文件

发布于 2024-11-07 17:33:06 字数 2318 浏览 11 评论 0

诸如 grep 和 ack-grep 之类的命令行工具对于搜索匹配指定正则表达式的纯文本非常有用。但是你有没有试过使用这些工具在 PDF 中搜索？不要这么做！由于这些工具无法读取 PDF 文件，因此你不会得到任何结果。它们只能读取纯文本文件。

顾名思义， pdfgrep 是一个可以在不打开文件的情况下搜索 PDF 中的文本的小命令行程序。它非常快速 —— 比几乎所有 PDF 浏览器提供的搜索更快。 grep 和 pdfgrep 的最大区别在于 pdfgrep 对页进行操作，而 grep 对行操作。 grep 如果在一行上找到多个匹配项，它也会多次打印单行。让我们看看如何使用该工具。

安装

对于 Ubuntu 和其他基于 Ubuntu 的 Linux 发行版来说，这非常简单：

sudo apt install pdfgrep

对于其他发行版，只要在包管理器里输入 “pdfgrep” 查找，它就应该能够安装它。万一你想浏览其代码，你也可以查看项目的 GitLab 页面。

测试运行

现在你已经安装了这个工具，让我们去测试一下。 pdfgrep 命令采用以下格式：

pdfgrep [OPTION...] PATTERN [FILE...]

OPTION 是一个额外的属性列表，给出诸如 -i 或 --ignore-case 这样的命令，这两者都会忽略匹配正则中的大小写。
PATTERN 是一个扩展正则表达式。
FILE 如果它在相同的工作目录就是文件的名称，或文件的路径。

我对 Python 3.6 官方文档运行该命令。下图是结果。

pdfgrep search

红色高亮显示所有遇到单词 “queue” 的地方。在命令中加入 -i 选项将会匹配单词 “Queue”。请记住，当加入 -i 时，大小写并不重要。

其它

pdfgrep 有相当多的有趣的选项。不过，我只会在这里介绍几个。

-c 或者 --count ：这会抑制匹配的正常输出。它只显示在文件中遇到该单词的次数，而不是显示匹配的长输出。
-p 或者 --page-count ：这个选项打印页面上匹配的页码和页面上的该匹配模式出现次数。
-m 或者 --max-count [number]：指定匹配的最大数目。这意味着当达到匹配次数时，该命令停止读取文件。

所支持的选项的完整列表可以在 man 页面或者 pdfgrep 在线文档中找到。如果你在批量处理一些文件，不要忘记， pdfgrep 可以同时搜索多个文件。可以通过更改 GREP_COLORS 环境变量来更改默认的匹配高亮颜色。

总结

下一次你想在 PDF 中搜索一些东西。请考虑使用 pdfgrep 。该工具会派上用场，并且节省你的时间。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

如何退出无响应的 ssh 会话

Maven 中 optional 关键字

Android 的系统架构

使用 Susy 构建 Web 布局更简单

流行框架的 Sass 体系结构解析

用 Python 预测今后的北京高考人数

查看 Linux 内核路由表以及 route 命令的使用

Linux 中 route 命令使用和介绍

上一篇：如何创建定制的 Ubuntu Live CD 镜像

下一篇：彻底找到 Tomcat 启动速度慢的元凶

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

暂无简介

文章

评论

25 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

睡美人的小仙女

文章 0 评论 0

七七

文章 0 评论 0

囍笑

文章 0 评论 0

盛夏尉蓝

文章 0 评论 0

ゞ花落谁相伴

文章 0 评论 0

Sherlocked

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文