将文档从 PDF 转换为文本时如何处理 unicode 字符编码问题

发布于 2024-12-05 15:19:13 字数 270 浏览 6 评论 0原文

我正在尝试从 PDF 中提取文本。 PDF 包含印地语 (Unicode) 文本。我使用的提取实用程序是 Apache PDFBox (http://pdfbox.apache.org/)。提取器提取文本，但文本无法识别。我尝试在许多编码和字体之间进行更改，但仍然无法识别预期的文本。这是一个例子：假设 PDF 中的文本为：पवार
提取后的样子是：̄Ö3⁄4ÖÖ ̧ü

有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天荒地未老 2024-12-12 15:19:13

PDF 本质上是一种打印格式，因此将文本记录为一系列视觉符号，而不是实际文本。最初它从未打算作为数字存档格式，并且仍然出现在许多文档中。对于复杂的脚本，例如需要字形替换、连接和重新排序的阿拉伯语或印度语脚本，基本上，您通常会遇到混乱。你通常得到的是嵌入字体中使用的字形 ID，它们与 Unicode 或实际的文本编码没有任何相似之处（字体代表字形，其中一些可能映射到 Unicode 代码点，但有些只是需要的）用于字体内部使用，例如基于上下文或连字的字形变体）。您可以在 LaTeX 生成的 PDF 中看到同样的情况，尤其是非 ASCII 字符和数学。

PDF 还具有将文本作为文本嵌入到视觉表示旁边的功能，但这完全由生成应用程序自行决定。我听说 Word 在生成 PDF 时非常努力地保留这些信息，但许多 PDF 生成器却没有这样做（它通常对拉丁语有一定的作用，这可能就是为什么几乎没有人打扰的原因）。

我认为，如果 PDF 没有可用的纯文本，最好的选择是对 PDF 进行 OCR 作为图像。

回复收藏 0 原文

~没有更多了~