当前位置：文江博客话题详情

如何在 Objective-C (CGPDF) 中找到 PDF 页面上的页边距大小

发布于 2024-11-16 14:41:48 字数 713 浏览 2 评论 0 原文

给定 pdf 文档中的一页，我希望能够使用 Objective-C 找到文本的边距。

我意识到已经有很多与CGPDF...相关的问题，但我还没有找到任何有用的东西。我还查看了 PDF 规范文档。我确信它一定在某个地方，但我还没有找到它。

示例

我创建了一个Word文档，其左右边距各为2.5厘米。然后我打印为pdf。拿这个pdf，有什么方法可以计算出文本的宽度（即左右页边距）吗？

背景

如果我找错了树，我问这个问题的原因是能够像 iBooks 缩放一样缩放。如果您双击 iBooks，它会将您缩放到主体的宽度。这与 Mac 的预览应用程序中的情况相同（按“缩放至适合”）。

第一个想法

我首先想到也许kCGPDFBleedBox之类的PDF Boxes (CGPDFPage)可能会有所帮助，但看起来并没有帮助就我而言。

更新

我只关心页面的正文。可能在这之外的图像等不会打扰我。

快速、精简的 PDF 查看器iPhone / iPad / iO - 提示和提示？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

送你一个梦 2024-11-23 14:41:48

我不熟悉苹果的“缩放以适合”功能及其确切行为（尽管我可以想象它最重要的属性）...

依赖不同的 *Box 值时的一个潜在缺点（MediaBox 、 CropBox、TrimBox、BleedBox 和（已弃用的）ArtBox）是，真实空白可能仍然与其返回值不同（大多更大）。

Ghostscript 有一个名为 bbox 的特殊设备，它返回所有页面呈现内容的“边界框”。示例：

gswin32c.exe ^
   -o nul: ^
   -sDEVICE=bbox ^
    input.pdf

返回（对于我尝试使用此命令的随机 3 页示例）：

%%BoundingBox: 86 122 509 719
%%HiResBoundingBox: 86.993997 122.993996 508.013984 718.001978
%%BoundingBox: 103 199 152 271
%%HiResBoundingBox: 103.408098 199.998064 151.107956 270.897953
%%BoundingBox: 103 195 185 271
%%HiResBoundingBox: 103.208059 195.000041 184.000002 270.897953

您可能可以忽略高精度 HiResBoundingBox 值。这给你留下：

%%BoundingBox: 86 122 509 719
%%BoundingBox: 103 199 152 271
%%BoundingBox: 103 195 185 271

这四个值代表左下角和右上角的坐标或包围所有渲染像素的矩形。单位是 PostScript 点（72 点 == 1 英寸）。

将此与 pdfinfo.exe 返回的 *Box 值进行比较：

pdfinfo ^
  -f 1 ^
  -l 3 ^
  -box ^
   input.pdf
 [....]
 Page    1 size: 421 x 595 pts (A5)
 Page    2 size: 421 x 595 pts (A5)
 Page    3 size: 92 x 80 pts

 Page    1 MediaBox:     0.00     0.00   595.00   842.00
 Page    1 CropBox:     87.00   123.00   508.00   718.00
 Page    1 BleedBox:    87.00   123.00   508.00   718.00
 Page    1 TrimBox:     87.00   123.00   508.00   718.00
 Page    1 ArtBox:      87.00   123.00   508.00   718.00

 Page    2 MediaBox:     0.00     0.00   595.00   842.00
 Page    2 CropBox:     87.00   123.00   508.00   718.00
 Page    2 BleedBox:    87.00   123.00   508.00   718.00
 Page    2 TrimBox:     87.00   123.00   508.00   718.00
 Page    2 ArtBox:      87.00   123.00   508.00   718.00

 Page    3 MediaBox:     0.00     0.00   595.00   842.00
 Page    3 CropBox:     92.00   194.00   184.00   274.00
 Page    3 BleedBox:    92.00   194.00   184.00   274.00
 Page    3 TrimBox:     92.00   194.00   184.00   274.00
 Page    3 ArtBox:      92.00   194.00   184.00   274.00
 [...]

更新： 这是显示 PDF 文档 3 个页面的缩略图的屏幕截图我用它来演示上面的差异：

3-page PDF with different page Sizes and *Boxes

I'm not familiar with Apple's "Zoom to Fit" feature and its exact behavior (though I can imagine its most important property)...

One potential disadvantage when relying on the different *Box values (MediaBox, CropBox, TrimBox, BleedBox and (the deprecated) ArtBox) is, that the real white space may still be different (mostly bigger) from their returned values.

Ghostscript has a special device called bbox which returns the "bounding box" of all the pages' rendered content. Example:

gswin32c.exe ^
   -o nul: ^
   -sDEVICE=bbox ^
    input.pdf

returns (for a random 3 page example I tried this command with):

%%BoundingBox: 86 122 509 719
%%HiResBoundingBox: 86.993997 122.993996 508.013984 718.001978
%%BoundingBox: 103 199 152 271
%%HiResBoundingBox: 103.408098 199.998064 151.107956 270.897953
%%BoundingBox: 103 195 185 271
%%HiResBoundingBox: 103.208059 195.000041 184.000002 270.897953

You can probably ignore the high-precision HiResBoundingBox values. This leaves you with:

%%BoundingBox: 86 122 509 719
%%BoundingBox: 103 199 152 271
%%BoundingBox: 103 195 185 271

These four values represent the coordinates of the lower left and upper right corners or a rectangle which surrounds all rendered pixels. The units are PostScript points (72 points == 1 inch).

Compare this to the *Box values as returned by pdfinfo.exe:

pdfinfo ^
  -f 1 ^
  -l 3 ^
  -box ^
   input.pdf
 [....]
 Page    1 size: 421 x 595 pts (A5)
 Page    2 size: 421 x 595 pts (A5)
 Page    3 size: 92 x 80 pts

 Page    1 MediaBox:     0.00     0.00   595.00   842.00
 Page    1 CropBox:     87.00   123.00   508.00   718.00
 Page    1 BleedBox:    87.00   123.00   508.00   718.00
 Page    1 TrimBox:     87.00   123.00   508.00   718.00
 Page    1 ArtBox:      87.00   123.00   508.00   718.00

 Page    2 MediaBox:     0.00     0.00   595.00   842.00
 Page    2 CropBox:     87.00   123.00   508.00   718.00
 Page    2 BleedBox:    87.00   123.00   508.00   718.00
 Page    2 TrimBox:     87.00   123.00   508.00   718.00
 Page    2 ArtBox:      87.00   123.00   508.00   718.00

 Page    3 MediaBox:     0.00     0.00   595.00   842.00
 Page    3 CropBox:     92.00   194.00   184.00   274.00
 Page    3 BleedBox:    92.00   194.00   184.00   274.00
 Page    3 TrimBox:     92.00   194.00   184.00   274.00
 Page    3 ArtBox:      92.00   194.00   184.00   274.00
 [...]

Update: Here is a screenshot showing the thumbnails of the PDF document's 3 pages which I used to demonstrate the differences above:

3-page PDF with different page sizes and *Boxes

回复收藏 0 原文

甚是思念 2024-11-23 14:41:48

您可以将 PDF 页面渲染为位图，检测其像素状态并获取白边距。看看 Skim 的这个出色的实现： http://skim-app.svn.sourceforge.net/viewvc/skim-app/trunk/NSBitmapImageRep_SKExtensions.m?revision=7036&content-type=text%2Fplain

回复收藏 0 原文

一抹淡然 2024-11-23 14:41:48

根据 CGPDF 文档，您最多可以获得四个内容框，它们定义了内容的保存、打印、裁剪、修剪等区域。使用 CGPDFPageGetBoxRect() 函数来获取这些框。我不确定它们的确切用途，所以这只是我对您需要哪些框的猜测：

CGRect mediaBox = CGPDFPageGetBoxRect(pageRef, kCGPDFMediaBox);
CGRect cropBox = CGPDFPageGetBoxRect(pageRef, kCGPDFCropBox);
CGFloat leftMargin = CGRectGetMinX(cropBox) - CGRectGetMinX(mediaBox);

换句话说 - 您获得页面边界和内容矩形边界并对它们进行数学计算。一旦您了解了每个框代表的含义，就不应该太难了。

According to CGPDF documentation you can get up to four content boxes which define the area in which content is held, printed, cropped, trimmed and so on. Use CGPDFPageGetBoxRect() function to get those boxes. I'm not sure of their exact purpose so this is just my guess on which boxes you need:

CGRect mediaBox = CGPDFPageGetBoxRect(pageRef, kCGPDFMediaBox);
CGRect cropBox = CGPDFPageGetBoxRect(pageRef, kCGPDFCropBox);
CGFloat leftMargin = CGRectGetMinX(cropBox) - CGRectGetMinX(mediaBox);

In other words - you get page boundaries, and content rectangle boundaries and do the math on them. Shouldn't be too hard once you get the idea of what each box represents.

回复收藏 0 原文

~没有更多了~

关于作者

猫烠⑼条掵仅有一顆心

暂无简介

0 文章

0 评论

832 人气

关注发私信

友情链接

文江博客

如何在 Objective-C (CGPDF) 中找到 PDF 页面上的页边距大小

示例

背景

第一个想法

更新

相关文章

Example

Background

First thoughts

Update

Related posts

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如何在 Objective-C (CGPDF) 中找到 PDF 页面上的页边距大小

示例

背景

第一个想法

更新

相关文章

Example

Background

First thoughts

Update

Related posts

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。