如何查找pdf中文本的x,y位置

发布于 2024-10-12 20:32:36 字数 32 浏览 8 评论 0原文

有没有工具可以找到pdf文件中文本内容的XY位置?

Is there any tool to find the X-Y location on a text content in a pdf file ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

恋你朝朝暮暮 2024-10-19 20:32:36

Docotic.Pdf Library 可以做到。请参阅下面的 C# 示例:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}

Docotic.Pdf Library can do it. See C# sample below:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf"))
{
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData())
        Console.WriteLine(textData.Position + " " + textData.Text);
}
放低过去 2024-10-19 20:32:36

尝试在 Acrobat 中运行“印前检查...”并选择 PDF Analysis ->列出页面对象,按对象类型分组

如果您在结果列表中找到文本对象,您会注意到“文本属性 ->”中有一个位置值(以磅为单位)。 * 字体部分。

Try running "Preflight..." in Acrobat and choosing PDF Analysis -> List page objects, grouped by type of object.

If you locate the text objects within the results list, you will notice there is a position value (in points) within the Text Properties -> * Font section.

憧憬巴黎街头的黎明 2024-10-19 20:32:36

TET,来自pdflib 系列产品可以做到这一点。 TET 有一个命令行界面,它是我所知道的所有文本提取工具中最强大的。 (它甚至可以处理连字......)

几何
TET 提供了文本的精确度量,例如页面上的位置、字形宽度和文本方向。页面上的特定区域可以排除或包含在文本提取中,例如忽略页眉和页脚或边距。

TET, the Text Extraction Toolkit from the pdflib family of products can do that. TET has a commandline interface, and it's the most powerful of all text extraction tools I'm aware of. (It can even handle ligatures...)

Geometry
TET provides precise metrics for the text, such as the position on the page, glyph widths, and text direction. Specific areas on the page can be excluded or included in the text extraction, e.g. to ignore headers and footers or margins.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文