按书签分割 PDF?
我要处理通过“合并”多个 PDF 创建的单个 PDF。每个合并的 PDF 都有 PDF 部分开始显示的位置,并带有书签。
有什么方法可以通过脚本自动将其分割为书签吗?
我们只有书签来指示部件,而不是页码,因此我们需要从书签推断页码。最好有一个 Linux 工具。
I am to process single PDFs that have each been created by 'merging' multiple PDFs. Each of the merged PDF has the places where the PDF parts start displayed with a bookmark.
Is there any way to automatically split this up by bookmarks with a script?
We only have the bookmarks to indicate the parts, not the page numbers, so we would need to infer the page numbers from the bookmarks. A Linux tool would be best.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(6)
pdftk可用于分割PDF文件并提取书签的页码。
要获取书签的页码,请执行以下操作
并使脚本从输出中读取页码。
然后使用
将A到B的页面放入out_A-B.pdf中。
该脚本可能是这样的:
pdftk can be used to split the PDF file and extract the page numbers of the bookmarks.
To get the page numbers of the bookmarks do
and make your script read the page numbers from the output.
Then use
to get the pages from A to B into out_A-B.pdf.
The script could be something like this:
有一个用 Java 编写的命令行工具,名为 Sejda,您可以在其中找到
splitbybookmarks
命令完全按照您的要求执行。它是 Java,因此它可以在 Linux 上运行,并且作为一个命令行工具,您可以编写脚本来执行此操作。免责声明
我是作者之一
There's a command line tool written in Java called Sejda where you can find the
splitbybookmarks
command that does exactly what you asked. It's Java so it runs on Linux and being a command line tool you can write script to do that.Disclaimer
I'm one of the authors
您有类似 pdf-split 构建的程序可以为您执行此操作:
编辑*还发现了一个免费的开源程序这里。
如果您不想付费,
you have programs that are built like pdf-split that can do that for you:
edit*
also found a free open sourced program Here if you do not want to pay.
这是我用于完成该任务的一个 Perl 小程序。 Perl 并不特殊;它只是 pdftk 的包装器,用于解释其
dump_data
输出,将其转换为要提取的页码:Here's a little Perl program I use for the task. Perl isn't special; it's just a wrapper around pdftk to interpret its
dump_data
output to turn it into page numbers to extract:我编写了一个 Python 脚本,在具有特定名称的书签处将 PDF 分成两部分,使用
pdftk
。该脚本保留两个输出 PDF 中的书签。I wrote a Python script to split a PDF in two at a bookmark with a specific name, using
pdftk
. This script preserves the bookmarks in the two output PDFs.您可以使用 pdf_extbook 在 Linux 上提取带书签的 PDF。
它是自由软件。
它使用 pdftk 从文件中读取书签,使用 fzf 允许用户选择要提取的书签,并再次使用 pdftk 提取添加书签的页面。
You can use pdf_extbook to extract bookmarked PDFs on Linux.
It's libre software.
It uses pdftk to read the bookmarks from the file, fzf to allow the user to select which bookmark to extract, and pdftk again to extract bookmarked pages.