无需 pdftotext 将 PDF 转换为文本?
我必须将 PDF 转换为文本,目前我正在使用 pdftotext.exe
。这有时会弄乱生成的文本,所以我不能使用它。
我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。
I have to convert PDFs to text and currently I am using pdftotext.exe
. This messes up the resulting text sometimes and so I can't use that.
Is there another free tool that I can call from another program? I'd prefer a command line tool.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
PDF 转换为文本可能会很棘手,具体取决于其构造方式,但您可以从 iTextSharp 或 GhostScript 或商业组件获得良好的结果,例如:来自 www.tallcomponents.com(非附属)
PDF can be tricky to convert to Text depending on how its constructed, but you may get good results from iTextSharp or GhostScript or a commercial component eg: from www.tallcomponents.com (not affiliated)
PDF 文件通常不包含任何结构,因此软件需要对其进行猜测。我在 http://www.jpedal.org 上写了一篇关于这些问题的博客文章/PDFblog/2009/04/pdf-text/
您也可以尝试 PdfBox。
PDF files do not generally contain any structure so the software needs to guess it. I wrote a blog post on the issues at http://www.jpedal.org/PDFblog/2009/04/pdf-text/
You could also try PdfBox.
我发现 Apache PDFBox 比 pdftotext 好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。
I find that Apache PDFBox is much better than pdftotext. It extracts text in a way that is much closer to the original formatting of the document. It can be run from the command line.