使用 Camelot 进行错误编码

发布于 2025-01-11 01:16:28 字数 729 浏览 1 评论 0原文

我正在使用 Camelot 来解析文档。为了简单起见,我现在使用最基本的命令进行调试:

all_pages = camelot.read_pdf(str(file_path))
for table_info in all_pages:
    df = table_info.df
    print(df)

我将其应用于两个不同的 PDF,它们看起来非常相似。它们的元数据相同:

  • 制作者:Acrobat Distiller 17.0 (Windows)
  • 创建者:PScript5.dll 版本 5.2.2
  • 格式:PDF-1.3
  • 尺寸:A4,纵向(210 × 297 毫米)

仅文档的日期和大小不同。它们包含一个具有相同布局的表格。它仅在尺寸上略有变化。甚至单元格内的数据都是相同的! (我无法附加 PDF,但这里有 jpg 版本):

相关表格

对于较旧的 PDF 文件,一切进展顺利,我得到了单词、数字等。但对于较新的 PDF 文件,我只得到了得到奇怪的编码之类的东西“(cid:12)(cid:13)(cid:14)”。

我已查看文档,但找不到与此问题或一般编码相关的任何内容。

I am using Camelot to parse a document. To keep it simple, I am now debugging with the most basic command:

all_pages = camelot.read_pdf(str(file_path))
for table_info in all_pages:
    df = table_info.df
    print(df)

I am applying this to two different PDFs, which look very much the same. Their metadata is identical:

  • Producer: Acrobat Distiller 17.0 (Windows)
  • Creator: PScript5.dll Version 5.2.2
  • Format: PDF-1.3
  • Size: A4, Portrait (210 × 297 mm)

Only the date and size of the documents are different. They contain a table, with the same layout. It only changes slightly in size. Even the data within cells is the same! (I can't attach a PDF, but here is a jpg version):

The table in question

With the older PDF file things go well, and I get words, numbers, etc. But with the newer one I only get weird encoding stuff like "(cid:12)(cid:13)(cid:14)".

I have looked through the documentation, but I can't find anything related to this problem or to encoding in general.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文