读取包含原始内容的pdf文件

发布于 2024-09-03 03:29:19 字数 94 浏览 7 评论 0原文

我想阅读带有原始内容的pdf文件,例如它的字体(可能有些字体大小很小,而有些字体大小很大)以及段落和表格(如果是的话)。

怎么可能。

请帮忙。

I want to read pdf file with original content like its font(its possible that some font size is small while some font size is big ) and paragraph and table if it is.

how its possible.

plz help.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

多情出卖 2024-09-10 03:29:19

您需要一个诸如 jPod 之类的库,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本以及一两个字体大小,那应该不会太难做到。

You want a library such as jPod, which can parse PDF documents back into the structure they were generated from. The PDF specification is seriously complex, but if you just want to scrape text and maybe a font size or two, that shouldn't be too hard to do.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文