搜索 pdf 并在找到时提取页面
有谁知道如何在多页 pdf 中搜索某些文本(例如发票号码),然后将该页面提取到单独的文件中?我了解如何使用 FPDI 提取特定页面,然后使用FPDF修改并保存。我不明白的部分是如何搜索 pdf 并确定文本所在的页码。这最好用 php 来完成,但如果需要的话我愿意使用其他东西。
有什么建议吗?
谢谢。
Does anyone know how to search through a multiple page pdf for some text (e.g., an invoice number) and then extract that page to a separate file? I see how I can use FPDI to extract a particular page and then use FPDF to modify and save. The part I can't figure out is how to search the pdf and determine the page number that text is on. This would preferably be done with php, but I'd be willing to use something else if necessary.
Are there any suggestions?
Thank you.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
此页面帮助我找到了解决方案:
http://www.freak-search.com /en/thread/2817957/find_page_number_having_a_given_text
基本上,您在 bash 中使用命令行程序“pdftotext”脚本(请参阅链接)返回页码,然后使用 FPDI 提取页面。效果很好。
This page helped me find a solution:
http://www.freak-search.com/en/thread/2817957/find_page_number_containing_a_given_text
Basically, you use the command line program "pdftotext" in a bash script (see the link) to return the page number and then FPDI to extract the page. Works great.