无需 pdftotext 将 PDF 转换为文本?

发布于 2024-12-27 12:49:18 字数 117 浏览 1 评论 0原文

我必须将 PDF 转换为文本,目前我正在使用 pdftotext.exe。这有时会弄乱生成的文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

I have to convert PDFs to text and currently I am using pdftotext.exe. This messes up the resulting text sometimes and so I can't use that.

Is there another free tool that I can call from another program? I'd prefer a command line tool.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

少女情怀诗 2025-01-03 12:49:18

PDF 转换为文本可能会很棘手,具体取决于其构造方式,但您可以从 iTextSharp 或 GhostScript 或商业组件获得良好的结果,例如:来自 www.tallcomponents.com(非附属)

PDF can be tricky to convert to Text depending on how its constructed, but you may get good results from iTextSharp or GhostScript or a commercial component eg: from www.tallcomponents.com (not affiliated)

陌若浮生 2025-01-03 12:49:18

PDF 文件通常不包含任何结构,因此软件需要对其进行猜测。我在 http://www.jpedal.org 上写了一篇关于这些问题的博客文章/PDFblog/2009/04/pdf-text/

您也可以尝试 PdfBox。

PDF files do not generally contain any structure so the software needs to guess it. I wrote a blog post on the issues at http://www.jpedal.org/PDFblog/2009/04/pdf-text/

You could also try PdfBox.

最美不过初阳 2025-01-03 12:49:18

我发现 Apache PDFBox 比 pdftotext 好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。

I find that Apache PDFBox is much better than pdftotext. It extracts text in a way that is much closer to the original formatting of the document. It can be run from the command line.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文