读取包含原始内容的pdf文件
我想阅读带有原始内容的pdf文件,例如它的字体(可能有些字体大小很小,而有些字体大小很大)以及段落和表格(如果是的话)。
怎么可能。
请帮忙。
I want to read pdf file with original content like its font(its possible that some font size is small while some font size is big ) and paragraph and table if it is.
how its possible.
plz help.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您需要一个诸如 jPod 之类的库,它可以将 PDF 文档解析回生成它们的结构。 PDF 规范非常复杂,但如果您只想抓取文本以及一两个字体大小,那应该不会太难做到。
You want a library such as jPod, which can parse PDF documents back into the structure they were generated from. The PDF specification is seriously complex, but if you just want to scrape text and maybe a font size or two, that shouldn't be too hard to do.