当前位置：文江博客话题详情

使用某些实用程序或脚本将嵌入的 PDF 字体提取到外部 ttf 文件

发布于 2024-08-14 16:48:10 字数 382 浏览 2 评论 0原文

是否可以使用某些实用程序或脚本将 PDF 文件中嵌入的字体提取到外部 ttf 文件？

系统中是否存在嵌入（或未嵌入）PDF 文件的字体。使用 swftools 中的 pdf2swf 和 swfextract 工具，我能够确定 PDF 文件中使用的字体名称。然后我可以在运行时编译相应的系统字体，然后加载到我的 AIR 应用程序。
但是如果系统中不存在 PDF 中使用的字体，则有两种可能性：
2.1。如果PDF文件中也没有它们（未嵌入），我们只能根据字体名称使用类似的系统字体。
2.2。如果它们嵌入在 PDF 文件中，那么我想知道是否有可能将它们提取到外部 ttf 文件，以便我可以在运行时将它们编译为单独的 swf 文件？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

罪歌 2024-08-21 16:48:10

我知道你问这个问题已经有一段时间了，但我想我也许能帮上忙。

我不知道是否有任何实用程序允许您提取字体文件，但您可以手动执行此操作。

基本上，PDF 文件是具有不同对象的文本文件。您可以使用任何文本编辑器打开它并查找字体。

字体在 FontDescriptor 对象中指定，例如：

<</Type/FontDescriptor/FontName/ABCDEE+Algerian ... /FontFile2 24 0 R>>

这基本上是说，在对象 24 上指定了名为 Algerian 的字体。您可以使用“24 0 obj”行在文档中搜索对象 24，在此行之后，它显示带有字体文件的流的属性，并在“stream”关键字之后开始（其长度在 obj 之后的行中定义）。

该流包含压缩的 ttf 文件，要解压缩它，您可以使用以下方法：

  private static byte[] DecodeFlateDecodeData(byte[] data)
  {
     MemoryStream outputStream;
     using (outputStream = new MemoryStream())
     {
        using (var compressedDataStream = new MemoryStream(data))
        {
           // Remove the first two bytes to skip the header (it isn't recognized by the DeflateStream class)
           compressedDataStream.ReadByte();
           compressedDataStream.ReadByte();

           var deflateStream = new DeflateStream(compressedDataStream, CompressionMode.Decompress, true);

           var decompressedBuffer = new byte[1024];
           int read;
           while ((read = deflateStream.Read(decompressedBuffer, 0, decompressedBuffer.Length)) != 0)
           {
              outputStream.Write(decompressedBuffer, 0, read);
           }
           outputStream.Flush();
           compressedDataStream.Close();
        }
        return GetStreamBytes(outputStream);
     }
  }

我希望这可以帮助您...或帮助其他人

I know it's been a while since you asked this, but I figured I might be able to help.

I don't know if there is any utility that will allow you to extract the Font files, but you can do it manually.

Basically a PDF file is a text file with different objects. You can open it with any text editor and look for the fonts.

The fonts are specified in FontDescriptor objects, e.g:

<</Type/FontDescriptor/FontName/ABCDEE+Algerian ... /FontFile2 24 0 R>>

This basically says, a font with the name Algerian is specified on the object 24. You can search the document for the object 24 with the line "24 0 obj", after this line, it displays the properties of the stream with the font file and after the "stream" keyword it starts (its length is defined in the line after the obj).

This stream contains the ttf file, compressed, to decompress it you can use this method:

  private static byte[] DecodeFlateDecodeData(byte[] data)
  {
     MemoryStream outputStream;
     using (outputStream = new MemoryStream())
     {
        using (var compressedDataStream = new MemoryStream(data))
        {
           // Remove the first two bytes to skip the header (it isn't recognized by the DeflateStream class)
           compressedDataStream.ReadByte();
           compressedDataStream.ReadByte();

           var deflateStream = new DeflateStream(compressedDataStream, CompressionMode.Decompress, true);

           var decompressedBuffer = new byte[1024];
           int read;
           while ((read = deflateStream.Read(decompressedBuffer, 0, decompressedBuffer.Length)) != 0)
           {
              outputStream.Write(decompressedBuffer, 0, read);
           }
           outputStream.Flush();
           compressedDataStream.Close();
        }
        return GetStreamBytes(outputStream);
     }
  }

I hope this helps you... or helps somebody else

回复收藏 0 原文

有木有妳兜一样 2024-08-21 16:48:10

这是一个迟到的答案，但我找到了一种使用免费 Windows 程序来做到这一点的方法。不需要脚本或编译或 cygwin。虽然只有几步，但并不像看起来那么糟糕。

安装mupdf
链接 - http://mupdf.googlecode.com/files/mupdf-0.8 .15-windows.zip
并将您的 pdf 复制到 mupdf 的安装文件夹中。假设它的名称为whatever.pdf。
打开 dos/命令提示符。导航到您的 mupdf 安装文件夹。
例如：cd C:\Program Files\mupdf
...如果进展顺利，您的提示现在应该如下所示：C:\Program Files\mupdf>
现在输入以下命令：
pdfextractwhatever.pdf

然后，在 mupdf 程序文件夹中，您将拥有一个或多个字体文件。它们的名称类似于 ABCDEF+Fontname-12.cff ...目前它们采用不可用的 .cff 格式，但我们会修复该问题。我建议将其重命名为不那么尴尬的名称...例如whatever.cff

更多 DOS，抱歉。您需要一个名为 cftot1.exe 的工具。这是一个链接：
ftp://tug.org/texlive/Contents/live/bin/win32 /cftot1.exe
...将其复制到您的 mupdf 文件夹中。然后输入：
cfftot1whatever.cffwhatever.pfb
您现在有一个几乎可用的字体文件，名为whatever.pfb。我说“几乎”是因为通常 PFB 字体文件还附带第二个文件，即包含间距信息的 PFM 文件。如果没有这个文件，字体将无法安装，并且间距将被搞乱。但该字体仍会在 fontlab 等字体编辑器中打开。您可以将字体从那里保存为 TTF 或 OTF。您也可以尝试自己调整间距。

如果您没有字体编辑器，可以使用 crossfont。 Crossfont 可以获取 PFB 并生成必要的 PFM 文件，这样您至少可以安装和使用该字体。
链接 - http://crossfont.en.softonic.com/

就是这样。

回复收藏 0 原文

感情废物 2024-08-21 16:48:10

几年前我设计了一种特殊的字体。我花了大约一年的时间上下班。有一天，我的迈拓硬盘坏了，我无法恢复我的工作。但我为我的客户将字体嵌入到了一些 PDF 文件中。然后我就有了从这些文件中提取字体的想法。在网上寻找答案一年左右后，我总结了一种从 PDF 中提取字体的方法。我已在我的博客 http://pdffontextract.blogspot.com 上介绍了此方法。自从我提出这个解决方案以来，出现了许多替代方案，但多样性并没有什么问题。我发表这篇文章是为了帮助其他需要恢复丢失工作的人。祝您玩得开心，如果您需要任何帮助，请随时与我联系。

回复收藏 0 原文

じ违心 2024-08-21 16:48:10

获取 cfftot1.exe 的链接已更改为 ftp://tug.org /texlive/Contents/live/bin/i386-linux/

回复收藏 0 原文

酒绊 2024-08-21 16:48:10

小更新 - 某些 PDF 包含以另一种独特格式嵌入的字体，如 .CID 文件。
这种格式是为支持大量字符的字体（例如亚洲语言字体）而设计的，并且不会以典型的方式将字形映射到字母。

您仍然可以从 .CID 文件中获取可用的字体，您只需在我上面的答案中添加一个步骤即可。
通过名为 PStill (GPStill) 的程序运行 PDF。网站在这里：
http://www.wizards.de/~frank/pstill.html

选择时根据您的输入，将下拉列表从 Postscript 文件更改为 PDF 文件。
您的输出 PDF 将附加 _new。
如果您需要解锁 PDF，您可以使用 Elcomsoft 的高级 PDF 密码恢复。

此步骤的作用是将 PDF 中嵌入的 CID 字体转换为 PFA 类型 1 字体。因此，运行 PDFextract 后，您将拥有可以导入到 Fontlab 甚至 Crossfont 中的 .PFA 文件，而不是一堆无用的 .CID 文件。请注意，字母可能无法正确映射，因此您确实需要像 Fontlab 这样的工具来移动它们，以便例如在键盘上键入 A 不会导致字母 R。

一如既往，如果字体仅嵌入为一个子集，您将无法获得整个字体，而只能获得一组有限的字母。

回复收藏 0 原文

~没有更多了~